Plaidoyer pour une Intelligence Artificielle Générale Psychométrique

1. Table des matières

2. Introduction
3. Idée centrale : le changement de paradigme psychométrique
4. Enchaînement logique : de l'IA étroite à l'intelligence générale
5. Forces et faiblesses : évaluation critique des tests d'IAG
6. Pistes d'action : orientations futures
7. Détails techniques et formulation mathématique
8. Résultats expérimentaux et analyse comparative
9. Cadre analytique : étude de cas de l'ARC
10. Applications futures et perspectives
11. Analyse et commentaires originaux
12. Références

2. Introduction

L'article « Plaidoyer pour une Intelligence Artificielle Générale Psychométrique » de Mark McPherson (Université de Bournemouth, 2020) examine de manière critique les références et tests existants pour mesurer l'Intelligence Artificielle Générale (IAG). L'auteur soutient que les systèmes d'IA actuels, malgré des performances surhumaines dans des domaines restreints comme le jeu de Go, StarCraft et le diagnostic médical, ne possèdent pas la capacité d'adaptation et de généralisation de l'intelligence humaine. La thèse centrale est que les approches psychométriques, en particulier le Corpus d'Abstraction et de Raisonnement (ARC) proposé par Chollet, offrent la voie la plus prometteuse pour détecter et mesurer l'IAG.

3. Idée centrale : le changement de paradigme psychométrique

L'idée fondamentale de cet article est que mesurer l'IAG nécessite un changement de paradigme, passant de références spécifiques à une tâche à des cadres psychométriques évaluant les capacités cognitives générales. L'auteur soutient que les références traditionnelles en IA (par exemple, les jeux, la classification d'images) sont insuffisantes car elles mesurent des performances étroites et spécifiques à un domaine plutôt que l'intelligence générale. L'approche psychométrique, inspirée des tests d'intelligence humaine, se concentre sur la mesure de la capacité à résoudre des problèmes nouveaux dans divers domaines sans entraînement spécifique à une tâche.

4. Enchaînement logique : de l'IA étroite à l'intelligence générale

L'article suit une progression logique claire :

Identification du problème : Les systèmes d'IA actuels sont étroits et fragiles, échouant lorsque l'environnement s'écarte légèrement des conditions d'entraînement.
Définition de l'IAG : L'intelligence générale est définie comme la capacité à effectuer des tâches dans de nombreux domaines, y compris ceux inconnus au moment de la création.
Examen des tests existants : L'auteur évalue six tests proposés par Mikhaylovskiy (Explication, Établissement de Problèmes, Réfutation, Prédiction de Nouveaux Phénomènes, Création d'Entreprise, Création de Théorie) et la référence ARC de Chollet.
Évaluation critique : Chaque test est évalué selon des critères incluant la généralité, l'objectivité, l'évolutivité et la résistance à la triche.
Recommandation : Les approches psychométriques, en particulier l'ARC, sont identifiées comme la direction la plus prometteuse.

5. Forces et faiblesses : évaluation critique des tests d'IAG

5.1 Forces des approches psychométriques

Généralité : Les tâches ARC nécessitent un raisonnement sur des motifs abstraits, et non des connaissances spécifiques à un domaine.
Objectivité : La performance est mesurée par la réussite sur des tâches inédites, réduisant les biais.
Évolutivité : L'ensemble de données ARC contient 800 tâches, permettant une analyse statistique robuste.

5.2 Faiblesses et limites

Tests de Mikhaylovskiy : Les tests d'Explication, de Création de Théorie et de Création d'Entreprise sont trop anthropocentriques et difficiles à automatiser objectivement. Ils nécessitent une créativité de niveau humain et une interaction avec le monde réel, ce qui peut ne pas être nécessaire pour l'IAG.
Limites de l'ARC : Bien que prometteur, l'ARC se concentre principalement sur le raisonnement visuel et peut ne pas capturer d'autres dimensions de l'intelligence (par exemple, le raisonnement social, linguistique ou physique).
Absence de dynamique temporelle : La plupart des tests sont statiques et n'évaluent pas l'apprentissage au fil du temps ou l'adaptation à des environnements changeants.

6. Pistes d'action : orientations futures

Sur la base de l'analyse, l'article suggère plusieurs orientations concrètes :

Développer des références hybrides : Combiner des tâches psychométriques avec des environnements dynamiques et interactifs pour évaluer à la fois le raisonnement et l'adaptation.
Intégrer de multiples modalités : Étendre l'ARC pour inclure des tâches de raisonnement linguistique, auditif et physique.
Se concentrer sur la généralisation compositionnelle : Concevoir des tâches qui nécessitent de combiner des concepts appris de manière nouvelle, un aspect clé de l'intelligence humaine.
Adopter un reporting standardisé : Utiliser des métriques psychométriques (par exemple, fiabilité, validité, théorie de la réponse à l'item) pour garantir la rigueur scientifique des références.

7. Détails techniques et formulation mathématique

L'approche psychométrique de la mesure de l'IAG peut être formalisée à l'aide de la théorie de la réponse à l'item (IRT). Soit $\theta$ l'intelligence générale latente d'un agent. La probabilité de résoudre correctement la tâche $i$ avec une difficulté $b_i$ et une discrimination $a_i$ est donnée par le modèle logistique :

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

Pour la référence ARC, chaque tâche consiste en paires de grilles entrée-sortie. L'agent doit déduire la transformation sous-jacente $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ à partir de quelques exemples et l'appliquer à une nouvelle entrée. La métrique de performance est la précision sur les tâches mises de côté, pondérée par la difficulté de la tâche.

8. Résultats expérimentaux et analyse comparative

L'article ne présente pas d'expériences originales mais passe en revue les résultats existants. Les principales conclusions de la littérature incluent :

Performance humaine sur l'ARC : Les humains atteignent environ 80 à 90 % de précision sur les tâches ARC, démontrant la faisabilité de cette référence.
Performance de l'IA : Les systèmes d'IA les plus avancés (en 2020) atteignent moins de 30 % de précision sur l'ARC, soulignant l'écart entre l'intelligence étroite et générale.
Comparaison avec d'autres références : L'ARC est plus difficile que les tests de QI traditionnels pour l'IA car il nécessite un raisonnement de type programmatique plutôt qu'une reconnaissance de formes.

Figure 1 : Un diagramme à barres hypothétique comparant les performances humaines et celles de l'IA sur les tâches ARC selon les niveaux de difficulté (facile, moyen, difficile). Les humains surpassent constamment l'IA, l'écart se creusant sur les tâches les plus difficiles.

9. Cadre analytique : étude de cas de l'ARC

Pour illustrer l'approche psychométrique, considérons une tâche ARC où l'entrée est une grille 3x3 avec des cellules colorées, et la sortie est une grille 3x3 avec un motif différent. L'agent doit déduire la règle (par exemple, « faire pivoter le motif de 90 degrés dans le sens horaire ») à partir de deux exemples et l'appliquer à une troisième entrée.

Exemple de tâche :

Entrée 1 : [[0,1,0],[1,0,1],[0,1,0]] → Sortie 1 : [[0,1,0],[1,0,1],[0,1,0]] (aucun changement, symétrie)
Entrée 2 : [[1,0,0],[0,1,0],[0,0,1]] → Sortie 2 : [[0,0,1],[0,1,0],[1,0,0]] (retournement le long de l'anti-diagonale)
Entrée de test : [[0,0,1],[0,1,0],[1,0,0]] → Sortie attendue : [[1,0,0],[0,1,0],[0,0,1]]

Cette tâche oblige l'agent à reconnaître la règle de transformation (retournement le long de l'anti-diagonale) et à l'appliquer à un nouveau motif. La valeur psychométrique réside dans le fait que la règle est abstraite et non liée à un domaine spécifique.

10. Applications futures et perspectives

L'approche psychométrique de l'IAG a plusieurs applications prometteuses :

Sécurité de l'IA : Les références psychométriques peuvent aider à détecter les défaillances inattendues des systèmes d'IA en testant la généralisation à des scénarios nouveaux.
Collaboration humain-IA : Comprendre le profil cognitif d'une IA (par exemple, ses points forts en raisonnement visuel vs. linguistique) peut améliorer le travail d'équipe avec les humains.
IA éducative : Les cadres psychométriques peuvent guider le développement de tuteurs IA qui s'adaptent aux styles d'apprentissage individuels.
Neurosciences : Comparer les performances humaines et celles de l'IA sur des tâches psychométriques peut éclairer les bases neuronales de l'intelligence générale.

Les orientations futures incluent l'intégration de références psychométriques avec des environnements d'apprentissage par renforcement, le développement de tests dynamiques qui s'adaptent au niveau de capacité de l'agent, et la création de références multimodales qui évaluent le raisonnement à travers les modalités sensorielles.

11. Analyse et commentaires originaux

L'article présente un argument convaincant en faveur des approches psychométriques de l'IAG, mais plusieurs points critiques méritent d'être examinés. Premièrement, le recours à l'intelligence de type humain comme étalon-or est philosophiquement discutable. Comme le soutient Bostrom (2014) dans « Superintelligence », l'IAG pourrait présenter des formes d'intelligence qualitativement différentes de la cognition humaine, rendant les références anthropocentriques potentiellement trompeuses. Deuxièmement, la référence ARC, bien qu'élégante, pourrait être trop étroite. Comme le notent Lake et al. (2017) dans « Building Machines That Learn and Think Like People », l'intelligence humaine implique non seulement le raisonnement abstrait, mais aussi la physique intuitive, la cognition sociale et la compréhension du langage. Une référence d'intelligence vraiment générale devrait englober ces dimensions. Troisièmement, l'article néglige le potentiel des tests adversariaux. Comme l'ont démontré Goodfellow et al. (2014) dans l'article original sur les GAN, les exemples adversariaux peuvent révéler des faiblesses fondamentales dans les systèmes d'IA que les références standard ne détectent pas. L'intégration d'éléments adversariaux dans les tests psychométriques pourrait fournir une évaluation plus robuste de la généralisation. Enfin, l'accent mis par l'article sur la mesure plutôt que sur l'architecture est une force, mais il risque d'ignorer la question de la construction de l'IAG. Comme le soutient Yudkowsky (2008), le problème d'alignement nécessite de comprendre les mécanismes internes des systèmes d'IA, et non seulement leur comportement externe. Malgré ces limites, l'article fournit un cadre précieux pour réfléchir à l'évaluation de l'IAG et souligne à juste titre la nécessité de références rigoureuses et psychométriquement valides.

12. Références

McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
Thomson, W. (1889). Popular Lectures and Addresses.
Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.