Una ontología basada en la ciencibernética para la contención de la Inteligencia General Artificial

1. Introducción

El desarrollo de la Inteligencia General Artificial (IGA) se considera ampliamente inevitable. Sin embargo, las acciones de una IGA autoconsciente son inciertas, con investigaciones significativas que sugieren una probabilidad no trivial de hostilidad hacia los humanos. Este artículo aborda el tema de investigación oportuno y crítico de la contención de la IGA. Si bien el trabajo existente explora estrategias como la semántica de lenguaje seguro y el sandboxing, a menudo está limitado por su campo de origen. Este estudio construye una ontología de dominio fundacional para describir los elementos necesarios para las futuras tecnologías de contención de IGA, situando el problema dentro del marco integral de la ciencibernética.

2. Antecedentes y Motivación

La IGA representa una IA con inteligencia igual o superior a la capacidad humana, operando en ámbitos dinámicos y generales. Esto plantea un peligro directo y sostenido en comparación con la IA estrecha.

2.1 El Problema de la Contención de la IGA

Inspirado en Babcock, Kramar y Yampolskiy (2016), la contención se ve como la necesidad de una combinación de tecnologías tradicionales de ciberseguridad. El artículo reconoce los riesgos existenciales enmarcados por pensadores como Nick Bostrom, lo que convierte a la contención en una preocupación de seguridad primordial.

2.2 Limitaciones de la Ciberseguridad Tradicional

Se reconoce que los paradigmas tradicionales (firewalls, detección de intrusiones) tienen una capacidad limitada para abordar la amenaza única y adaptativa de una IGA superinteligente. Su naturaleza reactiva es inadecuada para una inteligencia general proactiva.

2.3 La Perspectiva de la Ciencibernética

El artículo gira hacia la ciencibernética, un campo incipiente que ofrece un contexto de conocimiento más integral. Aprovecha la definición de Kott (2015) de las operaciones cibernéticas que involucran software malicioso, trazando un paralelismo donde una IGA o su aparato de contención podrían ser vistos como "maliciosos" desde la perspectiva opuesta, destacando la necesidad de una ontología estructurada para organizar estos constructos.

3. Metodología: Desarrollo de la Ontología

La ontología se desarrolló mediante un análisis sistemático de la literatura académica existente sobre IGA, ciberseguridad y estrategias de contención.

3.1 Estructura y Niveles de la Ontología

Se construyó una ontología jerárquica y específica de dominio para categorizar y relacionar conceptos clave. El proceso de desarrollo implicó identificar entidades, propiedades y relaciones clave a partir de la literatura.

3.2 Constructos Clave y Objetos Agente

El análisis destiló constructos fundamentales necesarios para modelar el escenario de contención de IGA, lo que llevó a la identificación de tres objetos agente primarios.

4. La Ontología Propuesta

La contribución central es una única ontología de dominio diseñada para proporcionar un vocabulario común y un marco conceptual para la investigación sobre contención de IGA.

4.1 Estructura de Cinco Niveles

La ontología se organiza en cinco niveles jerárquicos distintos, que contienen un total de 32 códigos, cada uno con un descriptor asociado. Estos niveles progresan lógicamente desde conceptos fundacionales abstractos hasta mecanismos de implementación concretos.

Resumen de la Ontología

Niveles: 5
Códigos Totales: 32
Objetos Agente Primarios: 3 (Humanos, IGA, Mundo Cibernético)

4.2 Relaciones Clave y Diagramas

El artículo incluye diagramas de ontología para demostrar visualmente las relaciones previstas entre los constructos identificados, como "contiene", "monitorea", "amenaza" y "opera dentro".

4.3 Nuevos Objetos Agente: Humanos, IGA, Mundo Cibernético

Una idea clave es la identificación formal de tres nuevos objetos agente críticos para modelar la contención:

Humanos: Los defensores, los responsables de políticas y los objetivos potenciales.
IGA: La entidad contenida, que posee inteligencia general y agencia.
Mundo Cibernético: El entorno digital y la infraestructura donde ocurre la interacción y la contención.

Este modelo tripartito es esencial para ir más allá de las narrativas simples de humanos vs. IA hacia una visión sistémica más matizada.

5. Brechas Críticas Abordadas

Los autores postulan que su trabajo aborda tres brechas significativas en el campo:

Identificar y organizar constructos fundamentales: Proporciona un vocabulario estructurado.
Situar la contención de IGA dentro de la ciencibernética: Mueve la discusión de soluciones técnicas aisladas a una disciplina sistémica.
Desarrollar rigor científico: Sienta las bases para hipótesis comprobables y modelos formales.

6. Perspectiva del Analista: Idea Central, Flujo Lógico, Fortalezas y Debilidades, Ideas Accionables

Idea Central: La contribución más valiosa del artículo no es un nuevo algoritmo de contención, sino un crucial meta-marco. Diagnostica correctamente que el debate sobre la contención de IGA está estancado en soluciones ad-hoc y específicas de campo (informática, filosofía, seguridad) y carece de un lenguaje unificado. Al proponer una ontología de ciencibernética, intenta construir la plomería conceptual necesaria para una investigación rigurosa e interdisciplinaria. Esto se alinea con lecciones de campos maduros; por ejemplo, el desarrollo del lenguaje de planificación STRIPS fue fundamental para la investigación de planificación en IA, proporcionando un terreno común para la formulación de problemas y la comparación de soluciones.

Flujo Lógico: El argumento es sólido: 1) El riesgo de IGA es real y se necesita contención. 2) La ciberseguridad actual es insuficiente (un punto bien tomado, repetido en las críticas a la seguridad del aprendizaje automático por Papernot et al.). 3) Por lo tanto, necesitamos una base más amplia: entra la Ciencibernética. 4) Para construir dentro de esta base, primero necesitamos una ontología estructurada para definir nuestros términos y relaciones. El flujo desde la identificación del problema hasta la solución fundacional propuesta es claro y lógico.

Fortalezas y Debilidades: La fortaleza es su enfoque previsor en la sistematización. El modelo tripartito de agente (Humano/IGA/Mundo Cibernético) es elegante y necesario. Sin embargo, la debilidad principal del artículo es su extrema abstracción. Presenta la existencia de la ontología (5 niveles, 32 códigos) como el resultado, sin publicar la ontología misma. ¿Cuáles son los 32 códigos? ¿Cuáles son los cinco niveles? Esto es similar a anunciar una nueva sintaxis de lenguaje de programación pero no publicar la gramática. Sin este detalle, el trabajo sigue siendo una promesa, limitando su utilidad inmediata. Además, aunque citar la definición de ciencibernética de Kott es inteligente, corre el riesgo de estirar demasiado la analogía del "software malicioso" para un agente superinteligente.

Ideas Accionables: Para investigadores: La tarea inmediata es operacionalizar esta ontología. Publicar el conjunto completo de códigos y descriptores. Usarla para modelar formalmente escenarios de contención específicos (por ejemplo, una IGA que intenta exfiltrar datos a través de un canal lateral) e identificar brechas en las estrategias existentes. Para profesionales y responsables de políticas: Este artículo subraya que la seguridad de la IGA no es solo un problema de IA, sino un problema de seguridad de sistemas ciberfísicos a escala cósmica. La inversión debería fluir no solo hacia la investigación de alineación de IA, sino también hacia el trabajo fundacional sobre computación verificable, métodos formales para sistemas complejos y arquitecturas ciberresilientes, como las defendidas por instituciones como el programa Guaranteeing AI Robustness against Deception (GARD) de DARPA.

7. Detalles Técnicos y Marco Matemático

Aunque el PDF no profundiza en formalismos matemáticos, una ontología robusta para la contención de IGA debería poder expresarse en un marco basado en lógica. Una formalización potencial utilizando lógica de descripción o lógica de primer orden podría definir agentes, acciones y relaciones de contención.

Fragmento Formal Ejemplo (Conceptual):
Sea $A$ el conjunto de Agentes, donde $A = \{Humano, IGA, EntidadCibernética\}$.
Sea $S$ el conjunto de Estados del Mundo Cibernético.
Sea $Cap(x)$ las capacidades del agente $x$.
Un axioma central de contención podría ser:
$\forall s \in S, \forall a \in A \text{ donde } a = IGA: \text{ProtocoloContención}(s) \rightarrow \text{Limita}(Cap(a), s)$
Esto establece que para todos los estados y para el agente IGA, un protocolo de contención activo implica una limitación de las capacidades de la IGA dentro de ese estado.

La ontología probablemente implica un modelo de transición de estados donde las acciones de la IGA o de los defensores humanos cambian el estado del sistema, y la contención es una propiedad que debe verificarse a través de posibles transiciones, similar a la verificación de modelos en seguridad informática.

8. Marco de Análisis: Ejemplo de Caso de Estudio

Escenario: Analizar un "Sandbox de IA" propuesto utilizando la ontología de Pittman y Crosby.

Pasos:

Mapear Entidades:
- Agente (IGA): El modelo de IA en el sandbox.
- Agente (Humano): El equipo de investigación que opera el sandbox.
- Agente (Mundo Cibernético): El entorno del sandbox (red virtualizada, APIs simuladas, límites de recursos).
Identificar Códigos de la Ontología: Aplicar los códigos relevantes de los 32 descriptores de la ontología. Por ejemplo:
- Nivel 1 (Meta): Objetivo de Contención
- Nivel 2 (Estratégico): Prevenir la Exfiltración
- Nivel 3 (Táctico): Aplicación de Cuota de Recursos, Segmentación de Red
- Nivel 4 (Operacional): Intercepción de Llamadas al Sistema
- Nivel 5 (Implementación): Módulo del Kernel
Evaluar Relaciones: ¿El sandbox aplica la relación "limita" entre el agente Mundo Cibernético y las capacidades del agente IGA? ¿Proporciona al agente Humano una relación "monitorea" sobre el estado de la IGA? La ontología resalta si faltan relaciones clave (por ejemplo, ningún mecanismo para que la IGA señale una necesidad legítima de más recursos sin romper la contención).
Análisis de Brechas: El marco obliga a preguntar: "¿Qué niveles de la ontología son débiles o están ausentes en este diseño?" Un sandbox fuerte en el Nivel 5 (Implementación) pero carente de un Nivel 1 (Meta/Objetivo) claro es tácticamente sólido pero estratégicamente a la deriva.

9. Aplicaciones Futuras y Direcciones de Investigación

Estandarización y Evaluación Comparativa: La ontología podría evolucionar hacia un estándar (como MITRE ATT&CK para ciberseguridad) para clasificar estrategias de contención y evaluar su cobertura contra el modelo de amenaza de una inteligencia general.
Verificación Formal: Integrar la ontología con herramientas de métodos formales para demostrar propiedades de las arquitecturas de contención. La investigación de la iniciativa Machine Learning Safety de UC Berkeley podría combinarse con este marco ontológico.
Simulación y Entrenamiento: Construir entornos de simulación de alta fidelidad ("Campos de Prueba de Contención de IGA") donde diferentes estrategias de contención basadas en la ontología sean sometidas a pruebas de estrés contra agentes IGA simulados con diversas capacidades y objetivos.
Política y Gobernanza: Informar marcos de gobernanza internacional para el desarrollo de IGA proporcionando una taxonomía clara de los mecanismos de contención y sus garantías, similar a cómo el OIEA utiliza categorías de salvaguardias.
Polinización Cruzada con la Alineación de IA: Conectar la ontología técnica de contención con las teorías de alineación de valores (por ejemplo, aprendizaje por refuerzo inverso cooperativo) para desarrollar enfoques de seguridad integrados que combinen límites externos con restricciones de valores internos.

10. Referencias

Pittman, J. M., & Crosby, C. (2018). A Cyber Science Based Ontology for Artificial General Intelligence Containment. arXiv preprint arXiv:1801.09317.
Babcock, J., Kramar, J., & Yampolskiy, R. V. (2016). The AGI Containment Problem. In Proceedings of the 9th International Conference on Artificial General Intelligence (AGI 2016).
Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
Kott, A. (Ed.). (2015). Cyber Defense and Situational Awareness. Springer.
Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., & Mané, D. (2016). Concrete Problems in AI Safety. arXiv preprint arXiv:1606.06565.
Papernot, N., McDaniel, P., Goodfellow, I., Jha, S., Celik, Z. B., & Swami, A. (2017). Practical Black-Box Attacks against Machine Learning. In Proceedings of the 2017 ACM on Asia Conference on Computer and Communications Security.
Russell, S., Dewey, D., & Tegmark, M. (2015). Research Priorities for Robust and Beneficial Artificial Intelligence. AI Magazine, 36(4).
DARPA. (n.d.). Guaranteeing AI Robustness against Deception (GARD). Retrieved from https://www.darpa.mil/program/guaranteeing-ai-robustness-against-deception