2.1 AGI安全围堵问题
受Babcock、Kramar和Yampolskiy(2016)的启发,围堵被视为需要结合传统网络安全技术。本文认识到Nick Bostrom等思想家所阐述的存在性风险,这使得围堵成为至关重要的安全问题。
通用人工智能(AGI)的发展被广泛认为是不可避免的。然而,具有自我意识的AGI的行为具有不确定性,大量研究表明其存在对人类产生敌意的非微不足道的可能性。本文探讨了AGI安全围堵这一及时且关键的研究课题。虽然现有工作探索了诸如安全语言语义和沙箱等策略,但它们往往受限于其起源领域。本研究构建了一个基础领域本体论,用以描述未来AGI围堵技术所需的要素,并将该问题置于网络科学的综合框架之中。
AGI代表智能达到或超越人类能力、能在动态、通用范围内运作的人工智能。与狭义AI相比,这构成了直接且持续的危险。
受Babcock、Kramar和Yampolskiy(2016)的启发,围堵被视为需要结合传统网络安全技术。本文认识到Nick Bostrom等思想家所阐述的存在性风险,这使得围堵成为至关重要的安全问题。
传统范式(防火墙、入侵检测)被认为在应对超级智能AGI这种独特、自适应的威胁方面能力有限。其被动性特质不适合应对主动的、通用智能体。
本文转向网络科学,这是一个新兴领域,提供了更全面的知识背景。它借鉴了Kott(2015)对涉及恶意软件的网空行动的定义,并进行了类比:从对立视角看,AGI或其围堵装置可被视为“恶意”的,这凸显了需要一个结构化的本体论来组织这些构成要素。
该本体论是通过对AGI、网络安全和围堵策略的现有学术文献进行系统分析而构建的。
构建了一个分层的、领域特定的本体论,用于分类和关联核心概念。构建过程包括从文献中识别关键实体、属性和关系。
分析提炼了建模AGI围堵场景所需的基本构成要素,从而识别出三个主要的智能体对象。
核心贡献是一个单一的领域本体论,旨在为AGI围堵研究提供通用的词汇表和概念框架。
该本体论组织为五个不同的层级,共包含32个代码,每个代码都有相关的描述符。这些层级从抽象的基础概念到具体的实施机制,逻辑递进。
本文包含本体论图示,以可视化方式展示已识别构成要素之间的预期关系,例如“包含”、“监控”、“威胁”和“在…内运作”。
一个关键洞见是正式识别了三个对建模围堵至关重要的新型智能体对象:
这种三方模型对于超越简单的人机对抗叙事,转向更细致的系统视角至关重要。
作者认为他们的工作解决了该领域的三个重大空白:
核心洞见: 本文最有价值的贡献并非新的围堵算法,而是一个关键的元框架。它正确地诊断出,AGI围堵的争论深陷于特定领域(计算机科学、哲学、安全)的临时解决方案中,缺乏统一的语言。通过提出一个网络科学本体论,它试图为严谨的跨学科研究构建必要的概念管道。这与成熟领域的经验教训相符;例如,STRIPS规划语言的发展对AI规划研究至关重要,为问题表述和解决方案比较提供了共同基础。
逻辑脉络: 论证是合理的:1)AGI风险真实存在,需要围堵。2)当前的网络安全不足(这是一个被广泛接受的观点,Papernot等人对机器学习安全的批评也呼应了这一点)。3)因此,我们需要一个更广泛的基础——网络科学。4)要在这个基础上构建,我们首先需要一个结构化的本体论来定义我们的术语和关系。从问题识别到提出基础解决方案的脉络清晰且合乎逻辑。
优势与缺陷: 优势在于其具有前瞻性地关注系统化。三方智能体模型(人类/AGI/网络世界)优雅且必要。然而,本文的主要缺陷在于其极高的抽象性。它将本体论的存在(5个层级,32个代码)作为结果呈现,却没有公布本体论本身。32个代码是什么?五个层级是什么?这好比宣布了一种新的编程语言语法,却没有发布语法规则。没有这些细节,这项工作仍是一张空头支票,限制了其即时效用。此外,虽然引用Kott的网络科学定义很巧妙,但对于超级智能体而言,将“恶意软件”的类比延伸得过远存在风险。
可操作见解: 对于研究人员:当前任务是操作化这个本体论。发布完整的代码集和描述符。用它来形式化建模特定的围堵场景(例如,AGI试图通过侧信道外泄数据),并识别现有策略的空白。对于从业者和政策制定者:本文强调,AGI安全不仅是一个AI问题,更是一个宇宙尺度的信息物理系统安全问题。投资不仅应流向AI对齐研究,还应流向可验证计算、复杂系统形式化方法以及网络弹性架构等基础工作,正如DARPA的保障人工智能抗欺骗鲁棒性(GARD)等项目所倡导的那样。
虽然PDF文件没有详细阐述数学形式化,但一个稳健的AGI围堵本体论应该可以用基于逻辑的框架来表达。使用描述逻辑或一阶逻辑的潜在形式化可以定义智能体、行动和围堵关系。
示例形式化片段(概念性):
令 $A$ 为智能体集合,其中 $A = \{Human, AGI, CyberEntity\}$。
令 $S$ 为网络世界的状态集合。
令 $Cap(x)$ 表示智能体 $x$ 的能力。
一个核心围堵公理可能是:
$\forall s \in S, \forall a \in A \text{ where } a = AGI: \text{ContainmentProtocol}(s) \rightarrow \text{Limits}(Cap(a), s)$
这表明对于所有状态和AGI智能体,活跃的围堵协议意味着在该状态下对AGI能力的限制。
该本体论可能暗示了一个状态转移模型,其中AGI或人类防御者的行动改变了系统状态,而围堵是需要跨可能转移进行验证的属性,类似于计算机安全中的模型检验。
场景: 使用Pittman & Crosby本体论分析一个提议的“AI沙箱”。
步骤: