对话式AI中的常识推理：技术现状综述

1. 引言

本综述论文探讨了将常识推理融入现代对话式AI系统的关键挑战。尽管大型预训练语言模型（如BERT、GPT、T5）在理解语法和上下文方面取得了显著成功，但它们从根本上缺乏人类习以为常的、隐含的世界性知识。本文认为，这一差距是阻碍AI进行真正自然、连贯和智能对话的主要瓶颈。来自佐治亚理工学院的作者Christopher Richardson和Larry Heck将他们的工作定位为对当前格局（方法、数据集和评估）的必要梳理，旨在指导这个新兴但至关重要的领域的未来研究。

2. 对话式AI问题中的常识推理

本文阐述了常识缺失最为明显的具体对话任务。

2.1 对话连贯性与显著性

在多轮对话中保持逻辑一致和主题相关。缺乏常识的模型会生成语法正确但语义荒谬或不相关的回复。

2.2 问答与任务完成

回答需要未言明假设的问题或完成相关指令。例如，理解“烧开水壶”意味着后续步骤是“倒水”，即使没有明确说明。

2.3 闲聊与社交互动

理解幽默、讽刺、共情和社会规范。这需要深刻的人类心理和社会习俗模型，而当前模型主要通过统计推断而非真正理解来获取这些知识。

3. 融入常识的方法

本综述对文献中探索的主要技术方法进行了分类。

3.1 模型微调

在富含常识知识的数据集（如ATOMIC、SocialIQA）上进一步训练大型语言模型。此方法旨在将常识隐式地融入模型的参数中。

3.2 知识图谱关联

将模型显式地连接到结构化知识库，如ConceptNet或ATOMIC。模型在推理过程中检索或基于这些图谱进行推理。一个关键示例是COMET（Bosselut等人，2019），这是一个经过训练、能从这些图谱生成新知识三元组的Transformer模型。

3.3 自然语言解释

训练模型不仅要生成答案，还要生成自然语言的推理轨迹或解释。这迫使模型阐明隐含的步骤，从而可能提高鲁棒性。

4. 基准测试与评估指标

4.1 常用数据集

CommonsenseQA：需要常识的多选题问答。
SocialIQA：专注于社交和情感常识。
PIQA：用于遵循指令的物理常识。
DialogRE：对对话中的关系进行推理。

4.2 评估指标

除了标准准确率外，该领域还使用以下指标：

人工评估：评估连贯性、趣味性和合理性。
知识F1值：衡量与真实知识事实的重叠度。
推理链正确性：评估生成解释的逻辑合理性。

5. 对前沿模型的初步观察

作者对领先的开放对话模型BlenderBot 3和LaMDA提出了批判性的实践分析。他们的观察结果令人警醒：尽管这些模型规模庞大且技术复杂，但它们经常在简单的常识任务上失败。例如，在对话中生成自相矛盾的陈述，或无法理解基本的物理约束。这一实证有力地支持了本文的中心论点：在开放交互中，基准测试的性能并不等同于稳健、可用的常识。

6. 核心见解与分析

核心见解：对话式AI领域正遭受严重的“常识债务”。我们在不稳固的、隐含的基础上建造了摩天大楼（大规模LLM）。本综述正确地指出，核心问题不在于缺乏技术，而在于现代NLP的统计、模式匹配本质与人类常识的符号化、因果性和类比性本质之间存在根本性不匹配。正如Chollet（2019）在开创性著作《论智能的衡量》中指出的，真正的智能需要在新情境中获取技能并进行泛化——如果没有丰富的世界模型，这是不可能实现的。

逻辑脉络：本文结构逻辑清晰且具有说服力。它从定义问题及其表现（第1-2节）开始，到列举已尝试的工程解决方案（第3节），再到审视我们如何衡量进展（第4节），最后提供具体证据表明当前解决方案不足（第5节）。这一脉络遵循了科学方法：假设（缺乏常识）、实验（各种集成方法）、测量（基准测试）和结论（尚未解决）。

优势与不足：本文最大的优势在于其对前沿模型具体而批判性的评估。它超越了学术抽象，展示了真实的失败模式。其主要的不足（综述类文章常见）在于其描述性而非指导性。它描绘了领域版图，但对哪些路径最有前景提供的指导有限。它低估了纯基于Transformer的模型在因果推理方面的架构局限性，这一点在麻省理工学院CSAIL等机构关于神经符号集成的研究中被重点强调。

可操作的见解：对于从业者和研究人员来说，结论很明确：不要再把常识仅仅当作另一个用于微调的数据集。该领域需要范式转变。1）投资神经符号架构：将神经网络与显式、可操作的知识表示相结合的混合模型（如可微分归纳逻辑编程的相关工作）是必要方向。2）开发更好的模拟环境：就像OpenAI为强化学习开发的Gym一样，我们需要丰富、交互式的模拟器（灵感来自AllenAI的THOR等平台），让智能体可以通过具身体验和后果学习常识，而不仅仅是文本。3）重新思考评估方式：从静态的问答基准转向动态的、交互式的评估，模型必须在一段时间内展示出一致的世界理解能力，类似于ARC（抽象与推理语料库）挑战背后的原则。

7. 技术细节

知识图谱关联方法通常涉及检索增强生成框架。形式上，给定对话上下文 $C$，模型从知识图谱 $\mathcal{G}$ 中检索一组相关的常识知识三元组 $K = \{(h_i, r_i, t_i)\}$，其中 $h$ 是头实体，$r$ 是关系，$t$ 是尾实体。最终回复 $R$ 通过同时以 $C$ 和 $K$ 为条件生成：

$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$

像COMET这样的模型通过微调一个Transformer（例如GPT-2）来预测给定 $(h, r)$ 的尾实体 $t$ 来实现这一点，从而有效地学习在潜在空间中遍历图谱：$t = \text{COMET}(h, r)$。

8. 实验结果与图表说明

虽然PDF预览不包含明确的图表，但所描述的初步观察暗示了显著的性能差距。我们可以构想一个假设的条形图，比较人类与BlenderBot3和LaMDA在一系列常识对话任务（例如，连贯性、物理推理、社交推理）上的表现。Y轴将代表一个分数（0-100）。该图表将显示：

人类表现：在所有任务类别中始终保持较高的条形（约90-95）。
前沿模型（BlenderBot3/LaMDA）：条形图显示高方差——在连贯性上可能约为80分（它们可以模仿模式），但在需要更深理解的物理和社交推理任务上急剧下降到约50-60分。误差条会很大，表明不一致性。
关键要点：视觉上的差距，尤其是在物理和社交推理方面，将鲜明地说明本文关于存在根本性局限而非仅需渐进式改进的主张。

9. 分析框架示例

场景：评估对话智能体对简单叙述的理解。

对话上下文： 用户：“我刚养了一只新的小狗！它精力太旺盛了。我去应门的时候把它和我的最爱鞋子一起留在客厅了。”

智能体回复A（缺乏常识）： “那很好。你的鞋子是什么颜色的？”

智能体回复B（具备常识）： “哦不，你可能得去看看那些鞋子！小狗喜欢啃东西。”

框架分析：

知识检索： 模型是否访问了类似（小狗，能够，啃咬）、（鞋子，由...制成，皮革/织物）、（啃咬，导致，损坏）这样的三元组？
因果推理： 它能否将这些事实串联起来：新小狗 + 精力旺盛 + 无人看管 + 可啃咬物体 → 高损坏概率。
社交/语用推理： 它是否推断出用户未言明的担忧（担心鞋子）并生成相关、共情的警告？

回复A在所有三项上都失败了。回复B展示了成功应用这一隐含框架。当前的前沿模型在相当比例的情况下会生成回复A。

10. 未来应用与方向

解决常识推理将解锁变革性的应用：

真正的个人AI助手： 能够主动管理复杂任务的智能体（“根据我的日程、饮食目标和冰箱里已有的东西，订购一周的杂货”）。
高级教育导师： 能够通过建模学生的心理状态并生成苏格拉底式解释来诊断其误解的系统。
心理健康伴侣： 能够通过理解社会和心理规范提供细致入微的情感支持和危机检测的聊天机器人。
虚拟世界中的自主智能体： 游戏或元宇宙中具有可信动机、长期目标和对环境理解的非玩家角色。
研究方向： 未来在于具身、多模态学习（从视频、音频和物理交互中学习）、允许进行反事实推理的因果世界模型，以及由COMET等AI系统动态更新的大规模、精心策划的常识知识图谱。

11. 参考文献

Richardson, C., & Heck, L. (2023). Commonsense Reasoning for Conversational AI: A Survey of the State of the Art. Workshop on Knowledge Augmented Methods for NLP, AAAI 2023.
Bosselut, A., Rashkin, H., Sap, M., Malaviya, C., Celikyilmaz, A., & Choi, Y. (2019). COMET: Commonsense Transformers for Automatic Knowledge Graph Construction. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. Proceedings of the AAAI Conference on Artificial Intelligence.
Sap, M., Le Bras, R., Allaway, E., Bhagavatula, C., Lourie, N., Rashkin, H., ... & Choi, Y. (2019). ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning. Proceedings of the AAAI Conference on Artificial Intelligence.
Chollet, F. (2019). On the Measure of Intelligence. arXiv preprint arXiv:1911.01547.
Storks, S., Gao, Q., & Chai, J. Y. (2019). Recent Advances in Natural Language Inference: A Survey of Benchmarks, Resources, and Approaches. arXiv preprint arXiv:1904.01172.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems.