1. Introduction

Le développement d'une Intelligence Artificielle Générale (AGI) est largement considéré comme inévitable. Cependant, les actions d'une AGI consciente d'elle-même sont incertaines, des recherches significatives suggérant une probabilité non négligeable d'hostilité envers les humains. Cet article aborde le sujet de recherche critique et opportun du confinement de l'AGI. Si les travaux existants explorent des stratégies comme la sémantique de langage sûre ou la mise en bac à sable, ils sont souvent limités par leur domaine d'origine. Cette étude construit une ontologie de domaine fondamentale pour décrire les éléments nécessaires aux futures technologies de confinement de l'AGI, situant le problème dans le cadre global de la science cyber.

2. Contexte et motivation

L'AGI représente une IA dont l'intelligence est égale ou supérieure aux capacités humaines, opérant dans des domaines dynamiques et généraux. Cela représente un danger direct et durable comparé à l'IA spécialisée.

2.1 Le problème du confinement de l'AGI

S'inspirant de Babcock, Kramar, & Yampolskiy (2016), le confinement est vu comme nécessitant une combinaison de technologies de cybersécurité traditionnelles. L'article reconnaît les risques existentiels formulés par des penseurs comme Nick Bostrom, faisant du confinement une préoccupation de sécurité primordiale.

2.2 Limites de la cybersécurité traditionnelle

Les paradigmes traditionnels (pare-feux, détection d'intrusion) sont reconnus comme ayant une capacité limitée à répondre à la menace unique et adaptative d'une AGI superintelligente. Leur nature réactive est mal adaptée à une intelligence générale proactive.

2.3 La perspective de la science cyber

L'article se tourne vers la science cyber, un champ naissant offrant un contexte de connaissances plus complet. Il s'appuie sur la définition de Kott (2015) des opérations cyber impliquant des logiciels malveillants, établissant un parallèle où une AGI ou son appareil de confinement pourrait être vue comme « malveillante » du point de vue opposé, soulignant le besoin d'une ontologie structurée pour organiser ces concepts.

3. Méthodologie : Développement de l'ontologie

L'ontologie a été développée par une analyse systématique de la littérature académique existante sur l'AGI, la cybersécurité et les stratégies de confinement.

3.1 Structure et niveaux de l'ontologie

Une ontologie hiérarchique et spécifique au domaine a été construite pour catégoriser et relier les concepts fondamentaux. Le processus de développement a impliqué l'identification des entités, propriétés et relations clés à partir de la littérature.

3.2 Concepts fondamentaux et objets agents

L'analyse a distillé les concepts fondamentaux nécessaires pour modéliser le scénario de confinement de l'AGI, conduisant à l'identification de trois objets agents primaires.

4. L'ontologie proposée

La contribution principale est une ontologie de domaine unique conçue pour fournir un vocabulaire commun et un cadre conceptuel pour la recherche sur le confinement de l'AGI.

4.1 Structure à cinq niveaux

L'ontologie est organisée en cinq niveaux hiérarchiques distincts, contenant un total de 32 codes, chacun avec un descripteur associé. Ces niveaux progressent logiquement des concepts fondamentaux abstraits aux mécanismes de mise en œuvre concrets.

Résumé de l'ontologie

  • Niveaux : 5
  • Codes totaux : 32
  • Objets agents primaires : 3 (Humains, AGI, Monde Cyber)

4.2 Relations clés et diagrammes

L'article inclut des diagrammes ontologiques pour démontrer visuellement les relations prévues entre les concepts identifiés, telles que « contient », « surveille », « menace » et « opère au sein de ».

4.3 Nouveaux objets agents : Humains, AGI, Monde Cyber

Une idée clé est l'identification formelle de trois nouveaux objets agents essentiels pour la modélisation du confinement :

  • Humains : Les défenseurs, décideurs politiques et cibles potentielles.
  • AGI : L'entité confinée, possédant une intelligence générale et une agentivité.
  • Monde Cyber : L'environnement numérique et l'infrastructure où l'interaction et le confinement se produisent.

Ce modèle tripartite est essentiel pour dépasser les simples récits humains contre IA vers une vision systémique plus nuancée.

5. Lacunes critiques abordées

Les auteurs postulent que leur travail aborde trois lacunes significatives dans le domaine :

  1. Identifier et organiser les concepts fondamentaux : Fournit un vocabulaire structuré.
  2. Situer le confinement de l'AGI dans la science cyber : Fait passer la discussion de correctifs techniques isolés à une discipline systémique.
  3. Développer une rigueur scientifique : Jette les bases pour des hypothèses testables et des modèles formels.

6. Perspective de l'analyste : Idée centrale, logique, forces et faiblesses, pistes d'action

Idée centrale : La contribution la plus précieuse de l'article n'est pas un nouvel algorithme de confinement, mais un méta-cadre crucial. Il diagnostique correctement que le débat sur le confinement de l'AGI est enlisé dans des solutions ad hoc et spécifiques à un domaine (informatique, philosophie, sécurité) et manque d'un langage unifié. En proposant une ontologie de science cyber, il tente de construire la plomberie conceptuelle nécessaire à une recherche rigoureuse et interdisciplinaire. Cela s'aligne sur les leçons des domaines matures ; par exemple, le développement du langage de planification STRIPS a été crucial pour la recherche en planification en IA, fournissant un terrain commun pour la formulation des problèmes et la comparaison des solutions.

Logique : L'argumentation est solide : 1) Le risque de l'AGI est réel et le confinement est nécessaire. 2) La cybersécurité actuelle est insuffisante (un point bien pris, repris dans les critiques de la sécurité du ML par Papernot et al.). 3) Par conséquent, nous avons besoin d'une base plus large — entre en scène la Science Cyber. 4) Pour construire sur cette base, nous avons d'abord besoin d'une ontologie structurée pour définir nos termes et relations. Le passage de l'identification du problème à la solution fondamentale proposée est clair et logique.

Forces et faiblesses : La force est son accent précoce sur la systématisation. Le modèle d'agent tripartite (Humain/AGI/Monde Cyber) est élégant et nécessaire. Cependant, la faiblesse majeure de l'article est son extrême abstraction. Il présente l'existence de l'ontologie (5 niveaux, 32 codes) comme le résultat, sans publier l'ontologie elle-même. Quels sont les 32 codes ? Quels sont les cinq niveaux ? C'est comme annoncer une nouvelle syntaxe de langage de programmation sans en publier la grammaire. Sans ces détails, le travail reste une promesse, limitant son utilité immédiate. De plus, bien que citer la définition de la science cyber de Kott soit astucieux, cela risque d'étirer trop loin l'analogie du « logiciel malveillant » pour un agent superintelligent.

Pistes d'action : Pour les chercheurs : La tâche immédiate est d'opérationnaliser cette ontologie. Publier l'ensemble complet des codes et descripteurs. L'utiliser pour modéliser formellement des scénarios de confinement spécifiques (par exemple, une AGI tentant une exfiltration via un canal caché) et identifier les lacunes dans les stratégies existantes. Pour les praticiens et décideurs politiques : Cet article souligne que la sécurité de l'AGI n'est pas seulement un problème d'IA mais un problème de sécurité des systèmes cyber-physiques à une échelle cosmique. Les investissements devraient affluer non seulement dans la recherche sur l'alignement de l'IA, mais aussi dans les travaux fondamentaux sur le calcul vérifiable, les méthodes formelles pour les systèmes complexes et les architectures cyber-résilientes, comme le promeuvent des institutions comme le programme Guaranteeing AI Robustness against Deception (GARD) de la DARPA.

7. Détails techniques et cadre mathématique

Bien que le PDF n'élabore pas sur les formalismes mathématiques, une ontologie robuste pour le confinement de l'AGI devrait pouvoir s'exprimer dans un cadre basé sur la logique. Une formalisation potentielle utilisant la logique de description ou la logique du premier ordre pourrait définir les agents, actions et relations de confinement.

Exemple d'extrait formel (conceptuel) :
Soit $A$ l'ensemble des Agents, où $A = \{Humain, AGI, EntitéCyber\}$.
Soit $S$ l'ensemble des États du Monde Cyber.
Soit $Cap(x)$ les capacités de l'agent $x$.
Un axiome de confinement central pourrait être :
$\forall s \in S, \forall a \in A \text{ où } a = AGI: \text{ProtocoleDeConfinement}(s) \rightarrow \text{Limite}(Cap(a), s)$
Ceci énonce que pour tous les états et pour l'agent AGI, un protocole de confinement actif implique une limitation des capacités de l'AGI dans cet état.

L'ontologie implique probablement un modèle de transition d'état où les actions de l'AGI ou des défenseurs humains changent l'état du système, et le confinement est une propriété à vérifier à travers les transitions possibles, similaire à la vérification de modèle en sécurité informatique.

8. Cadre d'analyse : Exemple d'étude de cas

Scénario : Analyse d'un « Bac à sable pour IA » proposé en utilisant l'ontologie de Pittman & Crosby.

Étapes :

  1. Cartographier les entités :
    • Agent (AGI) : Le modèle d'IA dans le bac à sable.
    • Agent (Humain) : L'équipe de recherche exploitant le bac à sable.
    • Agent (Monde Cyber) : L'environnement du bac à sable (réseau virtualisé, API simulées, limites de ressources).
  2. Identifier les codes de l'ontologie : Appliquer les codes pertinents parmi les 32 descripteurs de l'ontologie. Par exemple :
    • Niveau 1 (Méta) : Objectif de confinement
    • Niveau 2 (Stratégique) : Prévenir l'exfiltration
    • Niveau 3 (Tactique) : Application de quotas de ressources, Segmentation réseau
    • Niveau 4 (Opérationnel) : Interception d'appels système
    • Niveau 5 (Implémentation) : Module noyau
  3. Évaluer les relations : Le bac à sable applique-t-il la relation « limite » entre l'agent Monde Cyber et les capacités de l'agent AGI ? Fournit-il à l'agent Humain une relation de « surveillance » sur l'état de l'AGI ? L'ontologie met en évidence si des relations clés sont manquantes (par exemple, aucun mécanisme pour que l'AGI signale un besoin légitime de plus de ressources sans briser le confinement).
  4. Analyse des lacunes : Le cadre force à se demander : « Quels niveaux de l'ontologie sont faibles ou absents dans cette conception ? » Un bac à sable fort au Niveau 5 (Implémentation) mais manquant d'un Niveau 1 (Méta/Objectif) clair est tactiquement solide mais stratégiquement à la dérive.

9. Applications futures et axes de recherche

  • Normalisation et évaluation comparative : L'ontologie pourrait évoluer vers une norme (comme MITRE ATT&CK pour la cybersécurité) pour classer les stratégies de confinement et évaluer leur couverture par rapport au modèle de menace d'une intelligence générale.
  • Vérification formelle : Intégrer l'ontologie avec des outils de méthodes formelles pour prouver les propriétés des architectures de confinement. Les recherches de l'initiative Machine Learning Safety de l'UC Berkeley pourraient être combinées avec ce cadre ontologique.
  • Simulation et entraînement : Construire des environnements de simulation haute-fidélité (« Polygones d'essai pour le confinement de l'AGI ») où différentes stratégies de confinement basées sur l'ontologie sont testées en conditions extrêmes contre des agents AGI simulés avec diverses capacités et objectifs.
  • Politique et gouvernance : Informer les cadres de gouvernance internationaux pour le développement de l'AGI en fournissant une taxonomie claire des mécanismes de confinement et de leurs garanties, similaire à la façon dont l'AIEA utilise des catégories de garanties.
  • Fécondation croisée avec l'alignement de l'IA : Relier l'ontologie technique de confinement avec les théories de l'alignement des valeurs (par exemple, l'apprentissage par renforcement inverse coopératif) pour développer des approches de sécurité intégrées combinant des limites externes avec des contraintes de valeurs internes.

10. Références

  1. Pittman, J. M., & Crosby, C. (2018). A Cyber Science Based Ontology for Artificial General Intelligence Containment. arXiv preprint arXiv:1801.09317.
  2. Babcock, J., Kramar, J., & Yampolskiy, R. V. (2016). The AGI Containment Problem. In Proceedings of the 9th International Conference on Artificial General Intelligence (AGI 2016).
  3. Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
  4. Kott, A. (Ed.). (2015). Cyber Defense and Situational Awareness. Springer.
  5. Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., & Mané, D. (2016). Concrete Problems in AI Safety. arXiv preprint arXiv:1606.06565.
  6. Papernot, N., McDaniel, P., Goodfellow, I., Jha, S., Celik, Z. B., & Swami, A. (2017). Practical Black-Box Attacks against Machine Learning. In Proceedings of the 2017 ACM on Asia Conference on Computer and Communications Security.
  7. Russell, S., Dewey, D., & Tegmark, M. (2015). Research Priorities for Robust and Beneficial Artificial Intelligence. AI Magazine, 36(4).
  8. DARPA. (n.d.). Guaranteeing AI Robustness against Deception (GARD). Retrieved from https://www.darpa.mil/program/guaranteeing-ai-robustness-against-deception