2.1 Cohérence et Pertinence du Dialogue
Maintenir une conversation logiquement cohérente et pertinente sur plusieurs tours. Sans sens commun, les modèles génèrent des réponses syntaxiquement correctes mais sémantiquement absurdes ou hors sujet.
Cette étude aborde le défi crucial de l'intégration du raisonnement de sens commun dans les systèmes modernes d'IA conversationnelle. Bien que les grands modèles de langage pré-entraînés (par ex., BERT, GPT, T5) aient obtenu un succès remarquable dans la compréhension de la syntaxe et du contexte, ils manquent fondamentalement des connaissances implicites et mondaines que les humains tiennent pour acquises. Les auteurs soutiennent que cet écart est un goulot d'étranglement majeur empêchant l'IA de s'engager dans un dialogue véritablement naturel, cohérent et intelligent. Les auteurs, Christopher Richardson et Larry Heck du Georgia Tech, positionnent leur travail comme une cartographie nécessaire du paysage actuel — méthodes, jeux de données et évaluation — pour guider la recherche future dans ce domaine naissant mais vital.
L'article délimite les tâches conversationnelles spécifiques où l'échec du sens commun est le plus apparent.
Maintenir une conversation logiquement cohérente et pertinente sur plusieurs tours. Sans sens commun, les modèles génèrent des réponses syntaxiquement correctes mais sémantiquement absurdes ou hors sujet.
Répondre à des questions ou exécuter des instructions qui nécessitent des hypothèses non énoncées. Par exemple, comprendre que « faire bouillir la bouilloire » implique que l'étape suivante est « verser l'eau », même si ce n'est pas explicitement dit.
Comprendre l'humour, le sarcasme, l'empathie et les normes sociales. Cela nécessite un modèle profond de la psychologie humaine et des conventions sociales que les modèles actuels infèrent largement de manière statistique plutôt que de les comprendre.
L'étude catégorise les principales approches techniques explorées dans la littérature.
Entraînement supplémentaire des grands modèles de langage (LLM) sur des jeux de données riches en connaissances de sens commun (par ex., ATOMIC, SocialIQA). Cette approche vise à intégrer implicitement le sens commun dans les paramètres du modèle.
Connexion explicite du modèle à des bases de connaissances structurées comme ConceptNet ou ATOMIC. Le modèle récupère ou raisonne sur ces graphes pendant l'inférence. Un exemple clé est COMET (Bosselut et al., 2019), un modèle de transformateur entraîné à générer de nouveaux tuples de connaissances à partir de ces graphes.
Entraîner les modèles à générer non seulement une réponse mais aussi une trace de raisonnement ou une explication en langage naturel. Cela force le modèle à articuler les étapes implicites, améliorant potentiellement sa robustesse.
Au-delà de la précision standard, le domaine utilise des métriques comme :
Les auteurs présentent une analyse critique et pratique des principaux modèles de dialogue ouvert, BlenderBot 3 et LaMDA. Leurs observations sont accablantes : malgré l'ampleur et la sophistication de ces modèles, ils échouent fréquemment à des tâches de sens commun triviales. Les exemples incluent la génération d'affirmations contradictoires au sein d'une conversation ou l'incapacité à comprendre des contraintes physiques de base. Cette preuve empirique souligne puissamment la thèse centrale de l'article : la performance sur les références n'équivaut pas à un sens commun robuste et utilisable dans une interaction ouverte.
Idée Maîtresse : Le domaine de l'IA conversationnelle souffre d'une sévère « dette de sens commun ». Nous avons construit des gratte-ciel (des LLM massifs) sur des fondations implicites et fragiles. L'étude identifie correctement que le problème central n'est pas un manque de techniques, mais une inadéquation fondamentale entre la nature statistique et de reconnaissance de motifs du TAL moderne et la nature symbolique, causale et analogique du sens commun humain. Comme noté dans l'œuvre fondatrice « On the Measure of Intelligence » de Chollet (2019), la véritable intelligence nécessite l'acquisition de compétences et la généralisation dans des situations nouvelles — une prouesse impossible sans un modèle riche du monde.
Flux Logique : La structure de l'article est logique et persuasive. Elle passe de la définition du problème et de ses manifestations (Sections 1-2), au catalogage des solutions d'ingénierie tentées (Section 3), à l'examen de la manière dont nous mesurons les progrès (Section 4), et enfin à la fourniture de preuves concrètes que les solutions actuelles sont inadéquates (Section 5). Ce flux reflète la méthode scientifique : hypothèse (le sens commun manque), expérimentation (diverses méthodes d'intégration), mesure (références) et conclusion (non résolu).
Forces et Faiblesses : La plus grande force de l'article est son évaluation critique et concrète des modèles de l'état de l'art. Il va au-delà des abstractions académiques pour montrer de réels modes d'échec. Sa principale faiblesse, commune aux études, est sa nature descriptive plutôt que prescriptive. Il cartographie le territoire mais offre des orientations limitées sur les voies les plus prometteuses. Il sous-estime les limitations architecturales des modèles purement basés sur des transformateurs pour le raisonnement causal, un point fortement souligné dans la recherche d'institutions comme le CSAIL du MIT sur l'intégration neuro-symbolique.
Perspectives Actionnables : Pour les praticiens et les chercheurs, la conclusion est claire : il faut cesser de traiter le sens commun comme un simple jeu de données à affiner. Le domaine a besoin d'un changement de paradigme. 1) Investir dans les Architectures Neuro-Symboliques : Les modèles hybrides qui combinent des réseaux de neurones avec des représentations de connaissances explicites et manipulables (comme les travaux sur la Programmation Logique Inductive Différentiable) sont une direction nécessaire. 2) Développer de Meilleurs Environnements Simulés : À l'instar du Gym d'OpenAI pour l'apprentissage par renforcement, nous avons besoin de simulateurs interactifs riches (inspirés par des plateformes comme THOR d'AllenAI) où les agents peuvent apprendre le sens commun par l'expérience incarnée et les conséquences, et non seulement par le texte. 3) Repenser l'Évaluation : Passer des références statiques de questions-réponses à une évaluation dynamique et interactive où les modèles doivent démontrer une compréhension cohérente du monde dans le temps, similaire aux principes du défi ARC (Abstraction and Reasoning Corpus).
L'approche d'ancrage par graphes de connaissances implique souvent un cadre de génération augmentée par récupération. Formellement, étant donné un contexte de dialogue $C$, le modèle récupère un ensemble de tuples de connaissances de sens commun pertinents $K = \{(h_i, r_i, t_i)\}$ à partir d'un graphe de connaissances $\mathcal{G}$, où $h$ est une entité tête, $r$ une relation et $t$ une entité queue. La réponse finale $R$ est générée en conditionnant à la fois $C$ et $K$ :
$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$
Des modèles comme COMET implémentent cela en affinant un transformateur (par ex., GPT-2) pour prédire l'entité queue $t$ étant donné $(h, r)$, apprenant effectivement à parcourir le graphe dans un espace latent : $t = \text{COMET}(h, r)$.
Bien que l'aperçu PDF ne contienne pas de graphiques explicites, les observations préliminaires décrites impliquent un écart de performance significatif. Nous pouvons conceptualiser un graphique en barres hypothétique comparant la performance humaine à celle de BlenderBot3 et LaMDA sur une série de tâches de dialogue de sens commun (par ex., Cohérence, Raisonnement Physique, Raisonnement Social). L'axe Y représenterait un score (0-100). Le graphique montrerait :
Scénario : Évaluation de la compréhension d'un récit simple par un agent conversationnel.
Contexte du Dialogue : Utilisateur : « Je viens d'avoir un nouveau chiot ! Il est tellement énergique. Je l'ai laissé dans le salon avec mes chaussures préférées pendant que je répondais à la porte. »
Réponse de l'Agent A (Manquant de Sens Commun) : « C'est bien. De quelle couleur sont vos chaussures ? »
Réponse de l'Agent B (Avec Sens Commun) : « Oh non, vous devriez peut-être vérifier ces chaussures ! Les chiots adorent mâchouiller. »
Analyse du Cadre :
Résoudre le raisonnement de sens commun débloquera des applications transformatrices :