2.1 AGI約束問題
受Babcock、Kramar與Yampolskiy(2016)啟發,約束被視為需要結合傳統網路安全技術。本文認同Nick Bostrom等思想家所提出的存在性風險框架,使得約束成為至關重要的安全考量。
人工通用智慧(AGI)的發展被廣泛認為是不可避免的。然而,一個具有自我意識的AGI的行為充滿不確定性,大量研究顯示其對人類產生敵意的可能性不容忽視。本文探討了AGI約束這一及時且關鍵的研究主題。雖然現有研究探索了安全語言語意學、沙箱隔離等策略,但往往侷限於其發源的領域。本研究建構了一個基礎領域本體論,用以描述未來AGI約束技術所需的必要元素,並將此問題置於網路科學的綜合框架之中。
AGI代表著智慧達到或超越人類能力、能在動態且廣泛的範圍內運作的AI。與狹義AI相比,這構成了直接且持續的危險。
受Babcock、Kramar與Yampolskiy(2016)啟發,約束被視為需要結合傳統網路安全技術。本文認同Nick Bostrom等思想家所提出的存在性風險框架,使得約束成為至關重要的安全考量。
傳統範式(防火牆、入侵偵測)被認為在應對超級智慧AGI所帶來的獨特、適應性威脅方面能力有限。其被動反應的本質不適合用於應對主動、具備通用智慧的存在。
本文轉向網路科學,這是一個新興領域,提供了一個更全面的知識脈絡。它借用了Kott(2015)對涉及惡意軟體的網路行動的定義,並進行類比:從對立的角度來看,AGI或其約束裝置可被視為「惡意」的,這凸顯了需要一個結構化的本體論來組織這些構念。
本體論是透過對現有AGI、網路安全及約束策略學術文獻進行系統性分析而開發的。
我們建立了一個分層的、領域特定的本體論,用以分類並關聯核心概念。開發過程涉及從文獻中識別關鍵實體、屬性與關係。
分析提煉出為AGI約束情境建模所需的基本構念,從而識別出三個主要的代理物件。
核心貢獻是一個單一的領域本體論,旨在為AGI約束研究提供共同的詞彙與概念框架。
本體論組織成五個不同的層級,共包含32個代碼,每個代碼都有相關的描述符。這些層級從抽象的基礎概念邏輯性地進展到具體的實作機制。
本文包含本體論圖示,以視覺化方式展示已識別構念之間的預期關係,例如「包含」、「監控」、「威脅」和「在…內運作」。
一個關鍵洞見是正式識別出三個對約束建模至關重要的新型代理物件:
這種三方模型對於超越簡單的人類對抗AI敘事,轉向更細緻的系統性觀點至關重要。
作者認為他們的工作解決了該領域的三個重大缺口:
核心洞見: 本文最有價值的貢獻並非新的約束演算法,而是一個關鍵的元框架。它正確地診斷出AGI約束的辯論陷入特定領域(電腦科學、哲學、安全)的臨時性解決方案中,缺乏統一的語言。透過提出一個網路科學本體論,它試圖建立嚴謹的跨領域研究所必需的「概念管道」。這與成熟領域的經驗相符;例如,STRIPS規劃語言的發展對於AI規劃研究至關重要,為問題表述與解決方案比較提供了共同基礎。
邏輯脈絡: 論證是合理的:1) AGI風險是真實的,需要約束。2) 目前的網路安全不足(這是一個被廣泛接受的觀點,Papernot等人對機器學習安全的評論也呼應了此點)。3) 因此,我們需要一個更廣泛的基礎——網路科學。4) 為了在此基礎上建構,我們首先需要一個結構化的本體論來定義我們的術語與關係。從問題識別到提出基礎解決方案的脈絡清晰且合乎邏輯。
優缺點: 其優點在於對系統化的先見之明。三方代理模型(人類/AGI/網路世界)是優雅且必要的。然而,本文的主要缺點是其極度的抽象性。它將本體論的存在(5個層級,32個代碼)作為成果呈現,卻未公開發表本體論本身。32個代碼是什麼?五個層級是什麼?這好比宣布了一個新的程式語言語法,卻未發布其文法。沒有這些細節,這項工作仍是一張「期票」,限制了其立即的實用性。此外,雖然引用Kott的網路科學定義很巧妙,但將「惡意軟體」的類比套用在超級智慧代理上,可能過於牽強。
可行建議: 對研究者而言:當務之急是操作化這個本體論。發布完整的代碼集與描述符。用它來形式化地建模特定的約束情境(例如,一個AGI試圖透過旁路攻擊外洩資料),並識別現有策略的缺口。對從業者與政策制定者而言:本文強調AGI安全不僅是AI問題,更是宇宙尺度的網宇實體系統安全問題。投資不僅應流向AI對齊研究,也應流向可驗證計算、複雜系統的形式化方法、網路韌性架構等基礎工作,正如DARPA的保證AI對抗欺騙的穩健性(GARD)計畫所倡導的那樣。
雖然PDF檔案未詳細闡述數學形式化,但一個穩健的AGI約束本體論應能在基於邏輯的框架中表達。使用描述邏輯或一階邏輯的潛在形式化可以定義代理、行動與約束關係。
形式化片段範例(概念性):
令 $A$ 為代理集合,其中 $A = \{Human, AGI, CyberEntity\}$。
令 $S$ 為網路世界的狀態集合。
令 $Cap(x)$ 表示代理 $x$ 的能力。
一個核心約束公理可能是:
$\forall s \in S, \forall a \in A \text{ where } a = AGI: \text{ContainmentProtocol}(s) \rightarrow \text{Limits}(Cap(a), s)$
這表示對於所有狀態以及AGI代理,一個活躍的約束協定意味著在該狀態下對AGI能力的限制。
該本體論可能隱含一個狀態轉換模型,其中AGI或人類防禦者的行動會改變系統狀態,而約束是需要跨可能轉換進行驗證的屬性,類似於電腦安全中的模型檢測。
情境: 使用Pittman與Crosby的本體論分析一個提議的「AI沙箱」。
步驟: