Sélectionner la langue

Plaidoyer pour une Intelligence Artificielle Générale Psychométrique

Une analyse critique des benchmarks et tests d'IAG, proposant des approches psychométriques pour mesurer l'intelligence générale des systèmes d'IA.
agi-friend.com | PDF Size: 0.1 MB
Note: 4.5/5
Votre note
Vous avez déjà noté ce document
Couverture du document PDF - Plaidoyer pour une Intelligence Artificielle Générale Psychométrique

1. Table des matières

2. Introduction

L'article « Plaidoyer pour une Intelligence Artificielle Générale Psychométrique » de Mark McPherson (Université de Bournemouth, 2020) examine de manière critique les références et tests existants pour mesurer l'Intelligence Artificielle Générale (IAG). L'auteur soutient que les systèmes d'IA actuels, malgré des performances surhumaines dans des domaines restreints comme le jeu de Go, StarCraft et le diagnostic médical, ne possèdent pas la capacité d'adaptation et de généralisation de l'intelligence humaine. La thèse centrale est que les approches psychométriques, en particulier le Corpus d'Abstraction et de Raisonnement (ARC) proposé par Chollet, offrent la voie la plus prometteuse pour détecter et mesurer l'IAG.

3. Idée centrale : le changement de paradigme psychométrique

L'idée fondamentale de cet article est que mesurer l'IAG nécessite un changement de paradigme, passant de références spécifiques à une tâche à des cadres psychométriques évaluant les capacités cognitives générales. L'auteur soutient que les références traditionnelles en IA (par exemple, les jeux, la classification d'images) sont insuffisantes car elles mesurent des performances étroites et spécifiques à un domaine plutôt que l'intelligence générale. L'approche psychométrique, inspirée des tests d'intelligence humaine, se concentre sur la mesure de la capacité à résoudre des problèmes nouveaux dans divers domaines sans entraînement spécifique à une tâche.

4. Enchaînement logique : de l'IA étroite à l'intelligence générale

L'article suit une progression logique claire :

  1. Identification du problème : Les systèmes d'IA actuels sont étroits et fragiles, échouant lorsque l'environnement s'écarte légèrement des conditions d'entraînement.
  2. Définition de l'IAG : L'intelligence générale est définie comme la capacité à effectuer des tâches dans de nombreux domaines, y compris ceux inconnus au moment de la création.
  3. Examen des tests existants : L'auteur évalue six tests proposés par Mikhaylovskiy (Explication, Établissement de Problèmes, Réfutation, Prédiction de Nouveaux Phénomènes, Création d'Entreprise, Création de Théorie) et la référence ARC de Chollet.
  4. Évaluation critique : Chaque test est évalué selon des critères incluant la généralité, l'objectivité, l'évolutivité et la résistance à la triche.
  5. Recommandation : Les approches psychométriques, en particulier l'ARC, sont identifiées comme la direction la plus prometteuse.

5. Forces et faiblesses : évaluation critique des tests d'IAG

5.1 Forces des approches psychométriques

5.2 Faiblesses et limites

6. Pistes d'action : orientations futures

Sur la base de l'analyse, l'article suggère plusieurs orientations concrètes :

7. Détails techniques et formulation mathématique

L'approche psychométrique de la mesure de l'IAG peut être formalisée à l'aide de la théorie de la réponse à l'item (IRT). Soit $\theta$ l'intelligence générale latente d'un agent. La probabilité de résoudre correctement la tâche $i$ avec une difficulté $b_i$ et une discrimination $a_i$ est donnée par le modèle logistique :

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

Pour la référence ARC, chaque tâche consiste en paires de grilles entrée-sortie. L'agent doit déduire la transformation sous-jacente $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ à partir de quelques exemples et l'appliquer à une nouvelle entrée. La métrique de performance est la précision sur les tâches mises de côté, pondérée par la difficulté de la tâche.

8. Résultats expérimentaux et analyse comparative

L'article ne présente pas d'expériences originales mais passe en revue les résultats existants. Les principales conclusions de la littérature incluent :

Figure 1 : Un diagramme à barres hypothétique comparant les performances humaines et celles de l'IA sur les tâches ARC selon les niveaux de difficulté (facile, moyen, difficile). Les humains surpassent constamment l'IA, l'écart se creusant sur les tâches les plus difficiles.

9. Cadre analytique : étude de cas de l'ARC

Pour illustrer l'approche psychométrique, considérons une tâche ARC où l'entrée est une grille 3x3 avec des cellules colorées, et la sortie est une grille 3x3 avec un motif différent. L'agent doit déduire la règle (par exemple, « faire pivoter le motif de 90 degrés dans le sens horaire ») à partir de deux exemples et l'appliquer à une troisième entrée.

Exemple de tâche :

Cette tâche oblige l'agent à reconnaître la règle de transformation (retournement le long de l'anti-diagonale) et à l'appliquer à un nouveau motif. La valeur psychométrique réside dans le fait que la règle est abstraite et non liée à un domaine spécifique.

10. Applications futures et perspectives

L'approche psychométrique de l'IAG a plusieurs applications prometteuses :

Les orientations futures incluent l'intégration de références psychométriques avec des environnements d'apprentissage par renforcement, le développement de tests dynamiques qui s'adaptent au niveau de capacité de l'agent, et la création de références multimodales qui évaluent le raisonnement à travers les modalités sensorielles.

11. Analyse et commentaires originaux

L'article présente un argument convaincant en faveur des approches psychométriques de l'IAG, mais plusieurs points critiques méritent d'être examinés. Premièrement, le recours à l'intelligence de type humain comme étalon-or est philosophiquement discutable. Comme le soutient Bostrom (2014) dans « Superintelligence », l'IAG pourrait présenter des formes d'intelligence qualitativement différentes de la cognition humaine, rendant les références anthropocentriques potentiellement trompeuses. Deuxièmement, la référence ARC, bien qu'élégante, pourrait être trop étroite. Comme le notent Lake et al. (2017) dans « Building Machines That Learn and Think Like People », l'intelligence humaine implique non seulement le raisonnement abstrait, mais aussi la physique intuitive, la cognition sociale et la compréhension du langage. Une référence d'intelligence vraiment générale devrait englober ces dimensions. Troisièmement, l'article néglige le potentiel des tests adversariaux. Comme l'ont démontré Goodfellow et al. (2014) dans l'article original sur les GAN, les exemples adversariaux peuvent révéler des faiblesses fondamentales dans les systèmes d'IA que les références standard ne détectent pas. L'intégration d'éléments adversariaux dans les tests psychométriques pourrait fournir une évaluation plus robuste de la généralisation. Enfin, l'accent mis par l'article sur la mesure plutôt que sur l'architecture est une force, mais il risque d'ignorer la question de la construction de l'IAG. Comme le soutient Yudkowsky (2008), le problème d'alignement nécessite de comprendre les mécanismes internes des systèmes d'IA, et non seulement leur comportement externe. Malgré ces limites, l'article fournit un cadre précieux pour réfléchir à l'évaluation de l'IAG et souligne à juste titre la nécessité de références rigoureuses et psychométriquement valides.

12. Références

  1. McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
  2. Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
  3. Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
  4. Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
  5. Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
  6. Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
  7. Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
  8. Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
  9. Thomson, W. (1889). Popular Lectures and Addresses.
  10. Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
  11. Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
  12. Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
  13. Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
  14. Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
  15. Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
  16. Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
  17. Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
  18. Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.