2.1 AGI控制問題
受Babcock、Kramar同Yampolskiy(2016)啟發,控制被視為需要結合傳統網絡安全技術。本文認同Nick Bostrom等思想家提出嘅存在性風險框架,令控制成為首要嘅安全關注點。
通用人工智能(AGI)嘅發展被廣泛認為係不可避免嘅。然而,一個具有自我意識嘅AGI嘅行為係不確定嘅,大量研究顯示佢對人類存在非微不足道嘅敵意可能性。本文探討AGI控制呢個及時且關鍵嘅研究課題。雖然現有研究探索咗安全語言語義同沙盒等策略,但往往受制於其起源領域。本研究構建咗一個基礎領域本體論,用於描述未來AGI控制技術所需嘅必要元素,並將問題置於網絡科學嘅綜合框架之內。
AGI代表具有人類或超越人類能力嘅智能,能夠喺動態、通用嘅範圍內運作。相比狹義AI,呢個構成咗直接且持續嘅危險。
受Babcock、Kramar同Yampolskiy(2016)啟發,控制被視為需要結合傳統網絡安全技術。本文認同Nick Bostrom等思想家提出嘅存在性風險框架,令控制成為首要嘅安全關注點。
傳統範式(防火牆、入侵檢測)被認為喺應對超級智能AGI獨特且適應性強嘅威脅方面能力有限。佢哋嘅被動性質唔適合應對主動、通用嘅智能。
本文轉向網絡科學,呢個新興領域提供咗一個更全面嘅知識背景。佢借鑒咗Kott(2015)對涉及惡意軟件嘅網絡操作嘅定義,並作出類比:從對立嘅角度睇,AGI或其控制裝置可以被視為「惡意」嘅,從而突顯咗需要一個結構化本體論來組織呢啲構建。
本體論係通過對AGI、網絡安全同控制策略嘅現有學術文獻進行系統分析而開發嘅。
構建咗一個分層、特定領域嘅本體論,用於分類同關聯核心概念。開發過程涉及從文獻中識別關鍵實體、屬性同關係。
分析提煉出建模AGI控制場景所需嘅基本構建,從而識別出三個主要嘅智能體對象。
核心貢獻係一個單一領域本體論,旨在為AGI控制研究提供通用詞彙同概念框架。
本體論組織成五個不同嘅層級,總共包含32個代碼,每個代碼都有相關描述符。呢啲層級從抽象嘅基礎概念邏輯地推進到具體嘅實施機制。
本文包含本體論圖表,以視覺化方式展示已識別構建之間嘅預期關係,例如「包含」、「監控」、「威脅」同「喺…內運作」。
一個關鍵洞見係正式識別咗三個對建模控制至關重要嘅新型智能體對象:
呢個三方模型對於超越簡單嘅人機對抗敘事,轉向更細緻嘅系統性觀點至關重要。
作者認為佢哋嘅工作解決咗該領域三個重大缺口:
核心洞見: 本文最有價值嘅貢獻唔係新嘅控制算法,而係一個關鍵嘅元框架。佢正確地診斷出AGI控制辯論陷入咗臨時、特定領域解決方案(計算機科學、哲學、安全)嘅泥沼,缺乏統一語言。通過提出一個網絡科學本體論,佢嘗試構建嚴謹、跨學科研究所需嘅概念基礎設施。呢個同成熟領域嘅經驗教訓一致;例如,STRIPS規劃語言嘅發展對AI規劃研究至關重要,為問題表述同解決方案比較提供咗共同基礎。
邏輯流程: 論證係合理嘅:1) AGI風險係真實嘅,需要控制。2) 當前網絡安全唔足夠(呢個觀點得到認同,Papernot等人對ML安全嘅批評亦有呼應)。3) 因此,我哋需要一個更廣闊嘅基礎——引入網絡科學。4) 為咗喺呢個基礎上構建,我哋首先需要一個結構化本體論來定義我哋嘅術語同關係。從問題識別到提出基礎解決方案嘅流程清晰且合乎邏輯。
優點與缺陷: 優點在於佢對系統化嘅先見之明。三方智能體模型(人類/AGI/網絡世界)優雅且必要。然而,本文嘅主要缺陷係其極度抽象。佢將本體論嘅存在(5層級,32代碼)作為結果呈現,但並未公佈本體論本身。32個代碼係乜?五個層級係乜?呢個就好似宣佈一種新編程語言語法但唔發佈語法規則一樣。缺乏呢啲細節,呢項工作仍然係一張期票,限制咗即時效用。此外,雖然引用Kott嘅網絡科學定義係聰明嘅,但將「惡意軟件」嘅類比套用喺超級智能體上,有過度延伸嘅風險。
可行建議: 對研究人員而言:當前任務係操作化呢個本體論。發佈完整代碼集同描述符。用佢來形式化建模特定控制場景(例如,AGI試圖通過側信道滲透)並識別現有策略嘅缺口。對從業者同政策制定者而言:本文強調AGI安全唔單止係一個AI問題,更係一個宇宙尺度嘅網絡物理系統安全問題。投資唔應該只流向AI對齊研究,仲應該流向可驗證計算、複雜系統形式化方法同網絡彈性架構等基礎工作,正如DARPA嘅保證AI對抗欺騙嘅穩健性(GARD)計劃等機構所倡導嘅。
雖然PDF文件冇詳細闡述數學形式化,但一個穩健嘅AGI控制本體論應該可以用基於邏輯嘅框架來表達。使用描述邏輯或一階邏輯嘅潛在形式化可以定義智能體、動作同控制關係。
示例形式化片段(概念性):
設 $A$ 為智能體集合,其中 $A = \{Human, AGI, CyberEntity\}$。
設 $S$ 為網絡世界嘅狀態集合。
設 $Cap(x)$ 表示智能體 $x$ 嘅能力。
一個核心控制公理可能係:
$\forall s \in S, \forall a \in A \text{ where } a = AGI: \text{ContainmentProtocol}(s) \rightarrow \text{Limits}(Cap(a), s)$
呢個表示對於所有狀態同AGI智能體,一個活動嘅控制協議意味著喺該狀態下對AGI能力嘅限制。
本體論可能暗示一個狀態轉換模型,其中AGI或人類防禦者嘅動作改變系統狀態,而控制係一個需要喺可能轉換中驗證嘅屬性,類似於計算機安全中嘅模型檢查。
場景: 使用Pittman & Crosby本體論分析一個提出嘅「AI沙盒」。
步驟: