Le Raisonnement de Sens Commun pour l'IA Conversationnelle : Un État de l'Art

1. Introduction

Cette étude aborde le défi crucial de l'intégration du raisonnement de sens commun dans les systèmes d'IA conversationnelle de pointe. Bien que les modèles basés sur des transformateurs comme BERT, GPT et T5 aient obtenu un succès remarquable dans la compréhension de la syntaxe du langage et de la sémantique contextuelle, ils peinent encore avec les tâches nécessitant des connaissances de sens commun – des connaissances sur le monde que les humains tiennent généralement pour acquises. L'article soutient que cet écart entrave significativement le développement de systèmes de dialogue véritablement naturels et cohérents.

L'importance du sens commun pour l'intelligence machine est reconnue depuis longtemps, mais un schéma universel pour codifier et intégrer cette connaissance reste insaisissable. Cette étude se concentre sur l'intersection du raisonnement de sens commun et de l'IA conversationnelle, passant en revue les ensembles de données, les méthodologies et les référentiels d'évaluation pertinents.

2. Le Raisonnement de Sens Commun dans les Problèmes d'IA Conversationnelle

Le raisonnement de sens commun est crucial dans divers aspects de l'IA conversationnelle. L'article identifie plusieurs domaines problématiques clés où son absence est la plus apparente.

2.1 Compréhension du Dialogue

Les modèles doivent inférer des intentions non énoncées, résoudre des ambiguïtés et comprendre le contexte implicite. Par exemple, comprendre que "Je cours au magasin" implique un mode de transport et une intention d'achat, et pas seulement un mouvement physique.

2.2 Génération de Réponses

Générer des réponses cohérentes, pertinentes et socialement appropriées nécessite la connaissance des normes sociales, des lois physiques et des comportements humains typiques. Un modèle dépourvu de sens commun pourrait générer des réponses physiquement impossibles ou socialement gênantes.

2.3 Dialogue Orienté Tâche

Aider les utilisateurs avec des tâches (par exemple, réserver un voyage, dépanner) nécessite de raisonner sur des séquences d'actions, des relations de cause à effet et les propriétés des objets dans le monde.

3. Méthodes d'Intégration du Sens Commun

L'étude catégorise les approches principales en trois stratégies majeures pour incorporer le sens commun dans les modèles d'IA conversationnelle.

3.1 Affinage de Modèle

Cette approche consiste à entraîner davantage (affiner) de grands modèles de langage pré-entraînés sur des ensembles de données spécialement conçus pour des tâches de raisonnement de sens commun. Des ensembles de données comme SocialIQA, CommonsenseQA et PIQA sont utilisés pour adapter les modèles à raisonner sur les interactions sociales, les propriétés conceptuelles et l'intuition physique.

3.2 Ancrage par Graphes de Connaissances

Cette méthode intègre explicitement des sources de connaissances externes structurées. L'article met en lumière deux graphes de connaissances (GC) majeurs :

ConceptNet : Un réseau sémantique contenant des connaissances générales sur le monde concernant les mots et les phrases.
ATOMIC : Un GC axé sur les connaissances inférentielles concernant les événements quotidiens, capturant les relations "si-alors" concernant les causes, les effets et les états mentaux des participants.

Les modèles sont conçus pour récupérer et raisonner sur les informations de ces GC pendant le traitement du dialogue. Le modèle COMET, un réseau neuronal basé sur un transformateur entraîné sur ConceptNet et ATOMIC, est cité comme un exemple clé capable de générer de nouvelles inférences de sens commun.

3.3 Explications en Langage Naturel

Une approche émergente consiste à entraîner les modèles non seulement à produire une réponse, mais aussi à générer une explication en langage naturel qui justifie la réponse en utilisant le sens commun. Cela vise à rendre le processus de raisonnement du modèle plus transparent et potentiellement plus robuste.

4. Référentiels et Métriques d'Évaluation

Évaluer le raisonnement de sens commun dans le dialogue est complexe. L'article discute de plusieurs référentiels :

Référentiels Spécifiques à une Tâche : Ensembles de données dédiés à l'évaluation de compétences de raisonnement spécifiques (par exemple, le raisonnement physique dans PIQA, le raisonnement social dans SocialIQA).
Référentiels de Dialogue Intégrés : Évaluations dans le cadre de tâches de dialogue plus larges, comme l'ensemble de données Commonsense Dialogue qui teste si les réponses d'un modèle sont cohérentes avec des faits de sens commun.
Évaluation Humaine : En fin de compte, le caractère naturel et la cohérence d'un dialogue, jugés par des humains, restent une métrique critique, bien que subjective.

Les métriques automatiques courantes incluent la précision sur des questions à choix multiples, BLEU/ROUGE pour la qualité des réponses, et de nouvelles métriques conçues pour mesurer la cohérence factuelle ou la plausibilité du raisonnement.

5. Observations Préliminaires sur les Modèles SOTA

L'article présente une analyse préliminaire de deux modèles de dialogue ouvert de premier plan : BlenderBot 3 et LaMDA. Malgré leurs capacités avancées, les deux modèles présentent des échecs significatifs dans le raisonnement de sens commun. Les exemples incluent :

Générer des réponses qui violent des lois physiques de base (par exemple, suggérer qu'un objet peut être à deux endroits à la fois).
Ne pas comprendre les signaux ou normes sociales implicites.
Produire des déclarations factuellement incohérentes au sein d'un même tour de conversation.

Ces observations motivent fortement la nécessité d'une recherche ciblée dans ce domaine, car de tels échecs sapent directement la confiance des utilisateurs et le caractère naturel perçu des interactions.

Idée Clé

Même les modèles conversationnels les plus avancés (BlenderBot3, LaMDA) présentent des lacunes critiques en matière de sens commun, le soulignant comme une frontière fondamentale, et non comme un défi périphérique.

6. Détails Techniques et Formulation Mathématique

L'intégration des graphes de connaissances implique souvent un cadre de génération augmentée par récupération. Étant donné un contexte de dialogue $C$ et un graphe de connaissances $\mathcal{K}$, l'objectif du modèle peut être formulé comme la génération d'une réponse $R$ qui maximise :

$P(R | C, \mathcal{K}) = \sum_{k \in \mathcal{K}_C} P(k | C) \cdot P(R | C, k)$

Où $\mathcal{K}_C$ est un sous-ensemble de triplets de connaissances pertinents récupérés depuis $\mathcal{K}$ en fonction du contexte $C$. Le terme $P(k | C)$ représente la probabilité du modèle de récupération de sélectionner le triplet de connaissances $k$, et $P(R | C, k)$ est la probabilité de la réponse étant donné le contexte et la connaissance sélectionnée. Des modèles comme COMET implémentent cela en affinant un transformateur (par exemple, GPT-2) sur des triplets de graphes de connaissances formatés comme $(tête, relation, queue)$, lui permettant de générer des complétions $queue$ plausibles pour de nouvelles requêtes $(tête, relation)$.

7. Cadre d'Analyse : Une Étude de Cas

Scénario : Évaluer la compréhension d'un chatbot d'un récit simple.

Entrée Utilisateur : "Je me suis versé un verre de jus d'orange, mais ensuite le téléphone a sonné. Quand je suis revenu, le verre était vide."

Cadre d'Analyse :

Récupération de Connaissances : Le système doit récupérer des faits de sens commun pertinents : Les liquides peuvent être consommés. Les animaux domestiques (comme les chats) peuvent boire des liquides. Les gens répondent au téléphone.
Génération d'Inférence : Utiliser un modèle comme COMET pour générer des inférences possibles pour l'événement "verre de jus laissé sans surveillance" : "Si X laisse une boisson sans surveillance, alors un animal domestique pourrait la boire" (relation ATOMIC : xEffect).
Notation d'Hypothèses : Évaluer quelle explication inférée ("quelqu'un l'a bu", "il s'est évaporé", "un animal domestique l'a bu") correspond le mieux au contexte et à la plausibilité physique. L'inférence correcte repose sur une connaissance du monde non énoncée concernant les événements domestiques typiques.
Formulation de Réponse : Générer une question ou une déclaration de suivi cohérente : "Oh non, est-ce que ton chat y a goûté ?" par opposition à une réponse invraisemblable : "Est-ce qu'il s'est transformé en gaz ?"

Ce cadre met en lumière le raisonnement en plusieurs étapes requis, passant de la récupération à l'inférence, puis à l'intégration contextuelle.

8. Applications Futures et Axes de Recherche

La voie à suivre pour une IA conversationnelle consciente du sens commun implique plusieurs axes clés :

Sens Commun Multimodal : Intégrer les connaissances visuelles, auditives et sensorielles au langage, comme l'ont initié des modèles comme CLIP et DALL-E d'OpenAI, qui relient le texte aux concepts visuels. Les futurs agents de dialogue pourraient avoir besoin de raisonner sur des scènes décrites dans la conversation.
Graphes de Connaissances Dynamiques : Aller au-delà des GC statiques vers des systèmes capables d'apprendre et de mettre à jour continuellement les connaissances de sens commun à partir des interactions, de manière similaire aux humains.
Raisonnement Causal : Approfondir la compréhension des modèles sur la cause et l'effet, une composante centrale du sens commun. Les recherches de la hiérarchie causale de Judea Pearl suggèrent que passer de l'association à l'intervention et au raisonnement contrefactuel est crucial pour une IA robuste.
Sens Commun Personnalisé et Culturel : Développer des modèles qui comprennent les normes de sens commun qui varient selon les individus, les communautés et les cultures.
Intégration Neuro-Symbolique : Combiner la force de reconnaissance des motifs des réseaux neuronaux (comme les transformateurs) avec les capacités de raisonnement logique explicite des systèmes d'IA symbolique. Cette approche hybride, explorée par exemple par les modèles Probabilistic Symbolic (PS) du MIT, est une voie prometteuse pour un raisonnement de sens commun traitable et interprétable.

9. Références

Richardson, C., & Heck, L. (2023). Commonsense Reasoning for Conversational AI: A Survey of the State of the Art. Workshop on Knowledge Augmented Methods for NLP, AAAI 2023.
Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. Proceedings of AAAI.
Sap, M., et al. (2019). ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning. Proceedings of AAAI.
Bosselut, A., et al. (2019). COMET: Commonsense Transformers for Automatic Knowledge Graph Construction. Proceedings of ACL.
Gao, J., et al. (2018). Neural Approaches to Conversational AI. Foundations and Trends® in Information Retrieval.
Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of ICML (CLIP).

Perspective de l'Analyste : Le Fossé du Sens Commun

Idée Fondamentale : L'étude de Richardson et Heck expose une vérité fondamentale, mais souvent sous-estimée, dans l'IA moderne : nos modèles de langage les plus sophistiqués sont des appareilleurs de motifs brillants opérant dans un vide sémantique. Ils ont maîtrisé le "comment" du langage mais manquent du "pourquoi" – le modèle du monde fondamental qui ancre le sens. Ce n'est pas un simple bogue technique ; c'est une faille architecturale qui limite l'utilité et la fiabilité de l'IA dans les applications réelles. Comme le notent les auteurs, même les modèles phares comme LaMDA et BlenderBot3 échouent sur des tâches de raisonnement humain triviales, un écart qui fait écho aux limitations observées dans d'autres domaines de l'IA, comme les modèles de vision par ordinateur qui manquent de compréhension physique malgré leur prouesse perceptuelle.

Flux Logique, Forces et Faiblesses : La force de l'article réside dans sa taxonomie claire – catégorisant les approches en Affinage, Ancrage par GC et Explications. Ce cadre segmente utilement un paysage de recherche chaotique. L'accent mis sur les Graphes de Connaissances comme ConceptNet et ATOMIC est approprié ; ils représentent la tentative la plus concrète de capturer l'essence du sens commun. Cependant, l'étude met aussi involontairement en lumière la faiblesse centrale du domaine : une dépendance à des bases de connaissances fragiles, statiques et inévitablement incomplètes. ConceptNet, bien que précieux, est un instantané de la réalité consensuelle, manquant de la nature dynamique, contextuelle et souvent contradictoire de la connaissance du monde réel. L'approche du modèle COMET de générer des connaissances est une astuce intelligente, mais elle risque de produire des "faits" plausibles mais incorrects (hallucinations), échangeant un problème contre un autre. La discussion sur les référentiels révèle en outre un méta-problème : nous manquons de métriques automatiques robustes pour évaluer la profondeur du raisonnement, nous rabattant souvent sur la précision des questions à choix multiples ou des scores de similarité superficiels, qui sont de mauvais substituts à une véritable compréhension.

Perspectives Actionnables : La voie à suivre ne consiste pas seulement à mettre à l'échelle les paradigmes existants. Premièrement, le domaine doit prioriser le raisonnement causal et contrefactuel, dépassant la simple corrélation. Comme le soutient le travail de Judea Pearl, comprendre le "et si" et le "pourquoi" est le fondement d'une intelligence robuste. Deuxièmement, nous avons besoin d'une transition vers l'intégration neuro-symbolique. Les approches purement neuronales sont gourmandes en données et opaques ; les systèmes purement symboliques sont fragiles. Les modèles hybrides, qui exploitent les réseaux neuronaux pour la perception et l'appariement de motifs aux côtés de moteurs symboliques pour la déduction logique, offrent une voie prometteuse, bien que difficile sur le plan computationnel. Des institutions comme le CSAIL du MIT font des progrès ici. Enfin, l'évaluation doit évoluer. Nous avons besoin de référentiels qui testent les chaînes de raisonnement, exigent une justification et pénalisent les contradictions, passant des tâches à un seul tour à des récits de dialogue en plusieurs étapes qui exposent les incohérences logiques. L'avenir de l'IA conversationnelle ne se limite pas à un meilleur chat ; il s'agit de construire des machines qui partagent notre compréhension du monde, un objectif qui reste hors de portée mais qui est désormais plus clairement défini grâce à des études comme celle-ci.