Le Raisonnement de Sens Commun pour l'IA Conversationnelle : Un État de l'Art

1. Introduction

Cette étude aborde le défi crucial de l'intégration du raisonnement de sens commun dans les systèmes modernes d'IA conversationnelle. Bien que les grands modèles de langage pré-entraînés (par ex., BERT, GPT, T5) aient obtenu un succès remarquable dans la compréhension de la syntaxe et du contexte, ils manquent fondamentalement des connaissances implicites et mondaines que les humains tiennent pour acquises. Les auteurs soutiennent que cet écart est un goulot d'étranglement majeur empêchant l'IA de s'engager dans un dialogue véritablement naturel, cohérent et intelligent. Les auteurs, Christopher Richardson et Larry Heck du Georgia Tech, positionnent leur travail comme une cartographie nécessaire du paysage actuel — méthodes, jeux de données et évaluation — pour guider la recherche future dans ce domaine naissant mais vital.

2. Le Raisonnement de Sens Commun dans les Problèmes d'IA Conversationnelle

L'article délimite les tâches conversationnelles spécifiques où l'échec du sens commun est le plus apparent.

2.1 Cohérence et Pertinence du Dialogue

Maintenir une conversation logiquement cohérente et pertinente sur plusieurs tours. Sans sens commun, les modèles génèrent des réponses syntaxiquement correctes mais sémantiquement absurdes ou hors sujet.

2.2 Réponse aux Questions et Exécution de Tâches

Répondre à des questions ou exécuter des instructions qui nécessitent des hypothèses non énoncées. Par exemple, comprendre que « faire bouillir la bouilloire » implique que l'étape suivante est « verser l'eau », même si ce n'est pas explicitement dit.

2.3 Discussion Informelle et Interaction Sociale

Comprendre l'humour, le sarcasme, l'empathie et les normes sociales. Cela nécessite un modèle profond de la psychologie humaine et des conventions sociales que les modèles actuels infèrent largement de manière statistique plutôt que de les comprendre.

3. Méthodes d'Intégration du Sens Commun

L'étude catégorise les principales approches techniques explorées dans la littérature.

3.1 Affinage de Modèle

Entraînement supplémentaire des grands modèles de langage (LLM) sur des jeux de données riches en connaissances de sens commun (par ex., ATOMIC, SocialIQA). Cette approche vise à intégrer implicitement le sens commun dans les paramètres du modèle.

3.2 Ancrage par Graphes de Connaissances

Connexion explicite du modèle à des bases de connaissances structurées comme ConceptNet ou ATOMIC. Le modèle récupère ou raisonne sur ces graphes pendant l'inférence. Un exemple clé est COMET (Bosselut et al., 2019), un modèle de transformateur entraîné à générer de nouveaux tuples de connaissances à partir de ces graphes.

3.3 Explications en Langage Naturel

Entraîner les modèles à générer non seulement une réponse mais aussi une trace de raisonnement ou une explication en langage naturel. Cela force le modèle à articuler les étapes implicites, améliorant potentiellement sa robustesse.

4. Références et Métriques d'Évaluation

4.1 Jeux de Données Courants

CommonsenseQA : Questions à choix multiples nécessitant du sens commun.
SocialIQA : Se concentre sur le sens commun social et émotionnel.
PIQA : Sens commun physique pour le suivi d'instructions.
DialogRE : Raisonnement sur les relations au sein des dialogues.

4.2 Métriques d'Évaluation

Au-delà de la précision standard, le domaine utilise des métriques comme :

Évaluation Humaine : Pour la cohérence, l'intérêt et le bon sens.
F1-Connaissance : Mesure du chevauchement avec les faits de connaissance de référence.
Exactitude de la Chaîne de Raisonnement : Évaluation de la solidité logique des explications générées.

5. Observations Préliminaires sur les Modèles de l'État de l'Art

Les auteurs présentent une analyse critique et pratique des principaux modèles de dialogue ouvert, BlenderBot 3 et LaMDA. Leurs observations sont accablantes : malgré l'ampleur et la sophistication de ces modèles, ils échouent fréquemment à des tâches de sens commun triviales. Les exemples incluent la génération d'affirmations contradictoires au sein d'une conversation ou l'incapacité à comprendre des contraintes physiques de base. Cette preuve empirique souligne puissamment la thèse centrale de l'article : la performance sur les références n'équivaut pas à un sens commun robuste et utilisable dans une interaction ouverte.

6. Analyse et Idée Maîtresse

Idée Maîtresse : Le domaine de l'IA conversationnelle souffre d'une sévère « dette de sens commun ». Nous avons construit des gratte-ciel (des LLM massifs) sur des fondations implicites et fragiles. L'étude identifie correctement que le problème central n'est pas un manque de techniques, mais une inadéquation fondamentale entre la nature statistique et de reconnaissance de motifs du TAL moderne et la nature symbolique, causale et analogique du sens commun humain. Comme noté dans l'œuvre fondatrice « On the Measure of Intelligence » de Chollet (2019), la véritable intelligence nécessite l'acquisition de compétences et la généralisation dans des situations nouvelles — une prouesse impossible sans un modèle riche du monde.

Flux Logique : La structure de l'article est logique et persuasive. Elle passe de la définition du problème et de ses manifestations (Sections 1-2), au catalogage des solutions d'ingénierie tentées (Section 3), à l'examen de la manière dont nous mesurons les progrès (Section 4), et enfin à la fourniture de preuves concrètes que les solutions actuelles sont inadéquates (Section 5). Ce flux reflète la méthode scientifique : hypothèse (le sens commun manque), expérimentation (diverses méthodes d'intégration), mesure (références) et conclusion (non résolu).

Forces et Faiblesses : La plus grande force de l'article est son évaluation critique et concrète des modèles de l'état de l'art. Il va au-delà des abstractions académiques pour montrer de réels modes d'échec. Sa principale faiblesse, commune aux études, est sa nature descriptive plutôt que prescriptive. Il cartographie le territoire mais offre des orientations limitées sur les voies les plus prometteuses. Il sous-estime les limitations architecturales des modèles purement basés sur des transformateurs pour le raisonnement causal, un point fortement souligné dans la recherche d'institutions comme le CSAIL du MIT sur l'intégration neuro-symbolique.

Perspectives Actionnables : Pour les praticiens et les chercheurs, la conclusion est claire : il faut cesser de traiter le sens commun comme un simple jeu de données à affiner. Le domaine a besoin d'un changement de paradigme. 1) Investir dans les Architectures Neuro-Symboliques : Les modèles hybrides qui combinent des réseaux de neurones avec des représentations de connaissances explicites et manipulables (comme les travaux sur la Programmation Logique Inductive Différentiable) sont une direction nécessaire. 2) Développer de Meilleurs Environnements Simulés : À l'instar du Gym d'OpenAI pour l'apprentissage par renforcement, nous avons besoin de simulateurs interactifs riches (inspirés par des plateformes comme THOR d'AllenAI) où les agents peuvent apprendre le sens commun par l'expérience incarnée et les conséquences, et non seulement par le texte. 3) Repenser l'Évaluation : Passer des références statiques de questions-réponses à une évaluation dynamique et interactive où les modèles doivent démontrer une compréhension cohérente du monde dans le temps, similaire aux principes du défi ARC (Abstraction and Reasoning Corpus).

7. Détails Techniques

L'approche d'ancrage par graphes de connaissances implique souvent un cadre de génération augmentée par récupération. Formellement, étant donné un contexte de dialogue $C$, le modèle récupère un ensemble de tuples de connaissances de sens commun pertinents $K = \{(h_i, r_i, t_i)\}$ à partir d'un graphe de connaissances $\mathcal{G}$, où $h$ est une entité tête, $r$ une relation et $t$ une entité queue. La réponse finale $R$ est générée en conditionnant à la fois $C$ et $K$ :

$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$

Des modèles comme COMET implémentent cela en affinant un transformateur (par ex., GPT-2) pour prédire l'entité queue $t$ étant donné $(h, r)$, apprenant effectivement à parcourir le graphe dans un espace latent : $t = \text{COMET}(h, r)$.

8. Résultats Expérimentaux & Description de Graphique

Bien que l'aperçu PDF ne contienne pas de graphiques explicites, les observations préliminaires décrites impliquent un écart de performance significatif. Nous pouvons conceptualiser un graphique en barres hypothétique comparant la performance humaine à celle de BlenderBot3 et LaMDA sur une série de tâches de dialogue de sens commun (par ex., Cohérence, Raisonnement Physique, Raisonnement Social). L'axe Y représenterait un score (0-100). Le graphique montrerait :

Performance Humaine : Une barre constamment élevée (~90-95) dans toutes les catégories de tâches.
Modèles de l'État de l'Art (BlenderBot3/LaMDA) : Des barres montrant une forte variance — peut-être ~80 sur la Cohérence (où ils peuvent imiter des motifs), mais chutant brusquement à ~50-60 sur les tâches de Raisonnement Physique et Social qui nécessitent une compréhension plus profonde. Les barres d'erreur seraient grandes, indiquant une incohérence.
Conclusion Clé : L'écart visuel, en particulier dans le raisonnement physique et social, illustrerait clairement l'affirmation de l'article d'une limitation fondamentale, et non d'un besoin d'amélioration incrémentale.

9. Exemple de Cadre d'Analyse

Scénario : Évaluation de la compréhension d'un récit simple par un agent conversationnel.

Contexte du Dialogue : Utilisateur : « Je viens d'avoir un nouveau chiot ! Il est tellement énergique. Je l'ai laissé dans le salon avec mes chaussures préférées pendant que je répondais à la porte. »

Réponse de l'Agent A (Manquant de Sens Commun) : « C'est bien. De quelle couleur sont vos chaussures ? »

Réponse de l'Agent B (Avec Sens Commun) : « Oh non, vous devriez peut-être vérifier ces chaussures ! Les chiots adorent mâchouiller. »

Analyse du Cadre :

Récupération de Connaissances : Le modèle accède-t-il à des tuples comme (chiot, EstCapableDe, mâchouiller), (chaussure, EstFaitDe, cuir/tissu), (mâchouiller, Cause, dommage) ?
Raisonnement Causal : Peut-il enchaîner ces faits : nouveau chiot + énergique + sans surveillance + objet mâchouillable → forte probabilité de dommage.
Raisonnement Social/Pragmatique : Infère-t-il la préoccupation non énoncée de l'utilisateur (inquiétude pour les chaussures) et génère-t-il un avertissement pertinent et empathique ?

La Réponse A échoue sur les trois points. La Réponse B démontre une application réussie de ce cadre implicite. Les modèles actuels de l'état de l'art généreraient la Réponse A un pourcentage non négligeable du temps.

10. Applications Futures & Directions

Résoudre le raisonnement de sens commun débloquera des applications transformatrices :

Véritables Assistants Personnels d'IA : Des agents capables de gérer de manière proactive des tâches complexes (« Commander les courses de la semaine en tenant compte de mon emploi du temps, de mes objectifs diététiques et de ce qui est déjà dans le frigo »).
Tuteurs Éducatifs Avancés : Des systèmes capables de diagnostiquer une incompréhension d'un étudiant en modélisant son état mental et en générant des explications socratiques.
Compagnons de Santé Mentale : Des chatbots capables d'un soutien émotionnel nuancé et de détection de crise en comprenant les normes sociales et psychologiques.
Agents Autonomes dans les Mondes Virtuels : Des PNJ dans les jeux ou les métavers qui se comportent avec des motifs crédibles, des objectifs à long terme et une compréhension de leur environnement.
Direction de Recherche : L'avenir réside dans l'apprentissage multimodal et incarné (apprentissage à partir de vidéo, audio et interaction physique), les modèles causaux du monde qui permettent un raisonnement contrefactuel, et les graphes de connaissances de sens commun à grande échelle et organisés qui sont mis à jour dynamiquement par des systèmes d'IA comme COMET.

11. Références

Richardson, C., & Heck, L. (2023). Commonsense Reasoning for Conversational AI: A Survey of the State of the Art. Workshop on Knowledge Augmented Methods for NLP, AAAI 2023.
Bosselut, A., Rashkin, H., Sap, M., Malaviya, C., Celikyilmaz, A., & Choi, Y. (2019). COMET: Commonsense Transformers for Automatic Knowledge Graph Construction. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. Proceedings of the AAAI Conference on Artificial Intelligence.
Sap, M., Le Bras, R., Allaway, E., Bhagavatula, C., Lourie, N., Rashkin, H., ... & Choi, Y. (2019). ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning. Proceedings of the AAAI Conference on Artificial Intelligence.
Chollet, F. (2019). On the Measure of Intelligence. arXiv preprint arXiv:1911.01547.
Storks, S., Gao, Q., & Chai, J. Y. (2019). Recent Advances in Natural Language Inference: A Survey of Benchmarks, Resources, and Approaches. arXiv preprint arXiv:1904.01172.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems.