2.1 AGI 격리 문제
Babcock, Kramar, & Yampolskiy (2016)에서 영감을 받아, 격리는 전통적 사이버보안 기술들의 조합이 필요함을 시사합니다. 본 논문은 Nick Bostrom과 같은 사상가들이 제시한 실존적 위험을 인식하여, 격리를 최우선 안전 문제로 만듭니다.
인공일반지능(AGI)의 개발은 널리 불가피한 것으로 여겨집니다. 그러나 자의식을 가진 AGI의 행동은 불확실하며, 상당한 연구는 인간에 대한 적대적 태도를 보일 가능성이 무시할 수 없음을 시사합니다. 본 논문은 시의적절하고 중요한 연구 주제인 AGI 격리를 다룹니다. 기존 연구는 안전한 언어 의미론 및 샌드박싱과 같은 전략을 탐구하지만, 종종 해당 분야의 범위에 한정됩니다. 본 연구는 미래 AGI 격리 기술에 필요한 요소를 설명하기 위한 기초 도메인 온톨로지를 구축하여, 이 문제를 사이버 과학의 포괄적 프레임워크 내에 위치시킵니다.
AGI는 인간 수준 이상의 지능을 지니고, 동적이고 일반적인 범위에서 작동하는 AI를 의미합니다. 이는 협소 AI와 비교하여 직접적이고 지속적인 위험을 초래합니다.
Babcock, Kramar, & Yampolskiy (2016)에서 영감을 받아, 격리는 전통적 사이버보안 기술들의 조합이 필요함을 시사합니다. 본 논문은 Nick Bostrom과 같은 사상가들이 제시한 실존적 위험을 인식하여, 격리를 최우선 안전 문제로 만듭니다.
전통적 패러다임(방화벽, 침입 탐지)은 초지능 AGI의 독특하고 적응적인 위협을 해결하는 데 제한된 능력을 가진 것으로 인식됩니다. 그들의 대응적 성격은 능동적이고 일반적인 지능체에는 적합하지 않습니다.
본 논문은 사이버 과학으로 전환합니다. 이는 더 포괄적인 지식 맥락을 제공하는 신생 분야입니다. Kott(2015)의 악성 소프트웨어를 포함하는 사이버 작전 정의를 활용하여, AGI나 그 격리 장치가 상대적 관점에서 "악성"으로 볼 수 있다는 유사점을 그리며, 이러한 구성 요소들을 체계화하기 위한 구조화된 온톨로지의 필요성을 강조합니다.
온톨로지는 AGI, 사이버보안 및 격리 전략에 관한 기존 학술 문헌의 체계적 분석을 통해 개발되었습니다.
핵심 개념을 분류하고 연관시키기 위해 계층적이고 도메인 특화된 온톨로지가 구축되었습니다. 개발 과정에는 문헌에서 주요 개체, 속성 및 관계를 식별하는 작업이 포함되었습니다.
분석은 AGI 격리 시나리오를 모델링하는 데 필요한 근본적 구성 요소를 정제하여, 세 가지 주요 에이전트 객체의 식별로 이끌었습니다.
핵심 기여는 AGI 격리 연구를 위한 공통 어휘 및 개념적 프레임워크를 제공하도록 설계된 단일 도메인 온톨로지입니다.
온톨로지는 5개의 구별된 계층적 수준으로 구성되며, 총 32개의 코드와 각각에 연관된 설명자를 포함합니다. 이러한 수준들은 추상적 기초 개념에서 구체적 구현 메커니즘으로 논리적으로 진행됩니다.
본 논문은 "포함하다", "감시하다", "위협하다", "내에서 작동하다"와 같은 식별된 구성 요소들 간의 의도된 관계를 시각적으로 보여주기 위한 온톨로지 다이어그램을 포함합니다.
핵심 통찰은 격리 모델링에 중요한 세 가지 새로운 에이전트 객체의 공식적 식별입니다:
이 삼자 모델은 단순한 인간 대 AI 서사를 넘어 더 미묘한 체계적 관점으로 나아가는 데 필수적입니다.
저자들은 그들의 작업이 해당 분야의 세 가지 중요한 격차를 해소한다고 주장합니다:
핵심 통찰: 본 논문의 가장 가치 있는 기여는 새로운 격리 알고리즘이 아니라, 중요한 메타 프레임워크입니다. 이는 AGI 격리 논의가 임시방편적이고 분야 특화된 해결책(컴퓨터 과학, 철학, 보안)에 빠져 있으며 통일된 언어가 부족하다는 점을 올바르게 진단합니다. 사이버 과학 온톨로지를 제안함으로써, 엄격한 학제 간 연구에 필요한 개념적 기반을 구축하려 시도합니다. 이는 성숙한 분야의 교훈과 일치합니다. 예를 들어, STRIPS 계획 언어의 개발은 AI 계획 연구에 결정적이었으며, 문제 공식화와 해결책 비교를 위한 공통 기반을 제공했습니다.
논리적 흐름: 논증은 타당합니다: 1) AGI 위험은 실재하며 격리가 필요합니다. 2) 현재 사이버보안은 불충분합니다 (Papernot 등이 ML 보안 비판에서 반복한 잘 지적된 점입니다). 3) 따라서 우리는 더 넓은 기반이 필요합니다—사이버 과학의 등장. 4) 이 기반 내에서 구축하기 위해, 먼저 용어와 관계를 정의할 구조화된 온톨로지가 필요합니다. 문제 식별에서 제안된 기초적 해결책으로의 흐름은 명확하고 논리적입니다.
강점 및 결점: 강점은 체계화에 대한 선견지명적 초점입니다. 삼자 에이전트 모델(인간/AGI/사이버 세계)은 우아하고 필수적입니다. 그러나 본 논문의 주요 결점은 극도의 추상성입니다. 온톨로지의 존재(5수준, 32코드)를 결과로 제시하면서도 온톨로지 자체를 공개하지 않습니다. 32개의 코드는 무엇입니까? 5개의 수준은 무엇입니까? 이는 새로운 프로그래밍 언어 구문을 발표하지만 문법을 공개하지 않는 것과 유사합니다. 이러한 세부사항 없이는, 이 작업은 약속 어음에 머물며 즉각적인 유용성을 제한합니다. 더욱이, Kott의 사이버 과학 정의를 인용하는 것은 영리하지만, 초지능 에이전트에 대해 "악성 소프트웨어" 유추를 지나치게 확장할 위험이 있습니다.
실행 가능한 통찰: 연구자들을 위해: 즉각적인 과제는 이 온톨로지를 운영화하는 것입니다. 전체 코드 세트와 설명자를 공개하십시오. 이를 사용하여 특정 격리 시나리오(예: 사이드 채널을 통해 탈출을 시도하는 AGI)를 형식적으로 모델링하고 기존 전략의 격차를 식별하십시오. 실무자 및 정책 입안자들을 위해: 본 논문은 AGI 안전성이 단순한 AI 문제가 아니라 우주적 규모의 사이버-물리 시스템 보안 문제임을 강조합니다. 투자는 AI 정렬 연구뿐만 아니라, 검증 가능한 컴퓨팅, 복잡 시스템을 위한 형식적 방법, 사이버 회복력 아키텍처에 대한 기초 작업에도 흘러야 합니다. 이는 DARPA의 Guaranteeing AI Robustness against Deception (GARD) 프로그램과 같은 기관이 주창하는 바입니다.
PDF가 수학적 형식주의를 상세히 설명하지는 않지만, AGI 격리를 위한 강력한 온톨로지는 논리 기반 프레임워크로 표현 가능해야 합니다. 기술 논리 또는 일차 술어 논리를 사용한 잠재적 형식화는 에이전트, 행동 및 격리 관계를 정의할 수 있습니다.
예시 형식적 코드 조각 (개념적):
$A$를 에이전트 집합이라고 하자. 여기서 $A = \{Human, AGI, CyberEntity\}$.
$S$를 사이버 세계의 상태 집합이라고 하자.
$Cap(x)$는 에이전트 $x$의 능력을 나타낸다.
핵심 격리 공리는 다음과 같을 수 있다:
$\forall s \in S, \forall a \in A \text{ where } a = AGI: \text{ContainmentProtocol}(s) \rightarrow \text{Limits}(Cap(a), s)$
이는 모든 상태와 AGI 에이전트에 대해, 활성화된 격리 프로토콜은 해당 상태 내에서 AGI의 능력에 제한을 둠을 의미한다.
온톨로지는 AGI 또는 인간 방어자의 행동이 시스템 상태를 변경하고, 격리는 가능한 전이에 걸쳐 검증되어야 하는 속성인 상태 전이 모델을 암시할 가능성이 높습니다. 이는 컴퓨터 보안의 모델 체킹과 유사합니다.
시나리오: Pittman & Crosby 온톨로지를 사용하여 제안된 "AI 샌드박스" 분석.
단계: