2.1 AGI封じ込め問題
Babcock, Kramar, & Yampolskiy (2016) に触発され、封じ込めには従来型サイバーセキュリティ技術の組み合わせが必要であると見なされている。本論文は、Nick Bostrom のような思想家によって示された実存的リスクを認識し、封じ込めを最重要の安全上の懸念事項と位置づけている。
人工汎用知能(AGI)の開発は、広く避けられないものと考えられている。しかし、自己認識を持つAGIの行動は不確実であり、人間に対する敵意を持つ可能性が無視できないことを示唆する重要な研究が存在する。本論文は、AGI封じ込めという時宜を得た重要な研究課題に取り組む。安全な言語意味論やサンドボックス化といった戦略を探求する既存研究はあるが、それらはしばしば発祥の分野に縛られている。本研究は、将来のAGI封じ込め技術に必要な要素を記述するための基礎的なドメインオントロジーを構築し、この問題をサイバーサイエンスの包括的枠組みの中に位置づける。
AGIは、人間の能力と同等かそれを超える知能を持ち、動的で汎用的な範囲で動作するAIを表す。これは特化型AIと比較して、直接的かつ持続的な危険をもたらす。
Babcock, Kramar, & Yampolskiy (2016) に触発され、封じ込めには従来型サイバーセキュリティ技術の組み合わせが必要であると見なされている。本論文は、Nick Bostrom のような思想家によって示された実存的リスクを認識し、封じ込めを最重要の安全上の懸念事項と位置づけている。
従来のパラダイム(ファイアウォール、侵入検知)は、超知能的AGIという独特で適応的な脅威に対処する能力が限られていると認識されている。それらの反応的な性質は、能動的で汎用的な知能には不向きである。
本論文は、より包括的な知識の文脈を提供する新興分野であるサイバーサイエンスに軸足を移す。悪意のあるソフトウェアを含むサイバー作戦のKott (2015) の定義を活用し、AGIまたはその封じ込め装置が、対立する視点から「悪意のある」ものと見なされる可能性があるという類似性を描き、これらの概念を体系化する構造化されたオントロジーの必要性を強調している。
オントロジーは、AGI、サイバーセキュリティ、封じ込め戦略に関する既存の学術文献の体系的分析を通じて開発された。
中核概念を分類し関連付けるために、階層的でドメイン固有のオントロジーが構築された。開発プロセスには、文献から主要なエンティティ、特性、関係性を特定することが含まれた。
分析により、AGI封じ込めシナリオをモデル化するために必要な基本的な概念が抽出され、三つの主要なエージェントオブジェクトの特定につながった。
中核的な貢献は、AGI封じ込め研究のための共通語彙と概念的枠組みを提供することを目的とした単一のドメインオントロジーである。
オントロジーは五つの異なる階層レベルに編成されており、合計32のコード(それぞれに関連する記述子を持つ)を含む。これらのレベルは、抽象的な基礎概念から具体的な実装メカニズムへと論理的に進行する。
本論文には、特定された概念間の意図された関係性(「含む」、「監視する」、「脅かす」、「内部で動作する」など)を視覚的に示すオントロジー図が含まれている。
重要な洞察は、封じ込めのモデル化に不可欠な三つの新規エージェントオブジェクトを形式的に特定したことである:
この三者モデルは、単純な人間対AIの物語を超えて、よりニュアンスのあるシステム的視点に移行するために不可欠である。
著者らは、彼らの研究がこの分野における三つの重要なギャップを解消すると主張している:
中核的洞察: 本論文の最も価値ある貢献は、新しい封じ込めアルゴリズムではなく、重要なメタフレームワークである。AGI封じ込めの議論が、場当たり的で分野固有の解決策(計算機科学、哲学、セキュリティ)に陥り、統一された言語を欠いているという診断は正しい。サイバーサイエンスオントロジーを提案することで、厳密で学際的な研究に必要な概念的基盤を構築しようと試みている。これは成熟した分野からの教訓と一致する。例えば、STRIPS 計画言語の開発は、AI計画研究において決定的であり、問題定式化と解決策比較の共通基盤を提供した。
論理的流れ: 議論は妥当である:1) AGIリスクは現実的であり、封じ込めが必要である。2) 現在のサイバーセキュリティは不十分である(Papernot らによるMLセキュリティ批判でも指摘されている、よく理解された点)。3) したがって、より広範な基盤が必要である—サイバーサイエンスの登場。4) この基盤の中で構築するためには、まず用語と関係性を定義する構造化されたオントロジーが必要である。問題の特定から提案された基礎的解決策への流れは明確かつ論理的である。
長所と欠点: 長所は、体系化への先見的な焦点である。三者エージェントモデル(人間/AGI/サイバーワールド)は優雅で必要不可欠である。しかし、本論文の主要な欠点は、その極端な抽象性である。オントロジーの存在(5階層、32コード)を結果として提示しているが、オントロジー自体を公開していない。32のコードとは何か?五つの階層とは何か?これは、新しいプログラミング言語の構文を発表しながら文法を公開しないようなものである。この詳細がなければ、この研究は約束手形のままであり、即時の有用性が制限される。さらに、Kottのサイバーサイエンス定義を引用することは巧妙であるが、超知能的エージェントに対して「悪意のあるソフトウェア」の類推を薄めすぎるリスクがある。
実践的示唆: 研究者にとって:当面の課題は、このオントロジーを運用可能化することである。完全なコードセットと記述子を公開する。特定の封じ込めシナリオ(例:AGIがサイドチャネルを通じて情報を流出させようとする)を形式的にモデル化し、既存戦略のギャップを特定するためにそれを使用する。実務家と政策立案者にとって:本論文は、AGI安全性が単なるAI問題ではなく、宇宙規模のサイバーフィジカルシステムセキュリティ問題であることを強調している。投資は、AIアライメント研究だけでなく、DARPAのGuaranteeing AI Robustness against Deception (GARD)プログラムのような機関が推進する、検証可能な計算、複雑システムのための形式的手法、サイバー耐性アーキテクチャに関する基礎的研究にも流れるべきである。
PDFは数学的形式主義について詳述していないが、AGI封じ込めのための堅牢なオントロジーは、論理ベースの枠組みで表現可能であるべきである。記述論理または一階述語論理を使用した潜在的な形式化では、エージェント、アクション、封じ込め関係を定義できる可能性がある。
形式的記述例(概念的):
$A$ をエージェントの集合とし、$A = \{Human, AGI, CyberEntity\}$ とする。
$S$ をサイバーワールドの状態の集合とする。
$Cap(x)$ をエージェント $x$ の能力を表すとする。
中核的な封じ込め公理は次のようになるかもしれない:
$\forall s \in S, \forall a \in A \text{ where } a = AGI: \text{ContainmentProtocol}(s) \rightarrow \text{Limits}(Cap(a), s)$
これは、すべての状態とAGIエージェントに対して、アクティブな封じ込めプロトコルは、その状態内でのAGIの能力に制限を課すことを意味する。
このオントロジーは、AGIまたは人間の防御者によるアクションがシステム状態を変化させ、封じ込めが可能な遷移全体で検証されるべき特性である、状態遷移モデルを暗示している可能性が高い。これは、コンピュータセキュリティにおけるモデル検査に類似している。
シナリオ: Pittman & Crosby のオントロジーを使用して、提案された「AIサンドボックス」を分析する。
手順: