对话式人工智能中的常识推理：技术现状综述

1. 引言

本综述论文探讨了将常识推理融入最先进的对话式人工智能系统所面临的关键挑战。尽管基于Transformer的模型（如BERT、GPT和T5）在理解语言句法和上下文语义方面取得了显著成功，但它们仍然难以处理需要常识知识的任务——这些关于世界的知识是人类通常认为理所当然的。本文认为，这一差距严重阻碍了真正自然、连贯的对话系统的发展。

常识对于机器智能的重要性早已被认识到，然而，如何系统化编码并整合这种知识的通用方案仍然难以捉摸。本综述聚焦于常识推理与对话式AI的交叉领域，回顾了相关的数据集、方法论和评估基准。

2. 对话式AI中的常识推理问题

常识推理在对话式AI的各个方面都至关重要。本文指出了几个其缺失最为明显的核心问题领域。

2.1 对话理解

模型必须推断未言明的意图、消除歧义并理解隐含的上下文。例如，理解“我跑去商店”暗示了一种交通方式和购买意图，而不仅仅是物理上的移动。

2.2 回复生成

生成连贯、相关且符合社会规范的回复，需要具备对社会规范、物理定律和典型人类行为的知识。缺乏常识的模型可能会生成物理上不可能或社交上尴尬的回复。

2.3 任务导向型对话

协助用户完成任务（例如，预订旅行、故障排除）需要对一系列动作、因果关系以及世界中物体属性进行推理。

3. 融入常识的方法

本综述将主要方法归纳为三种将常识整合到对话式AI模型中的主要策略。

3.1 模型微调

这种方法涉及在专门为常识推理任务策划的数据集上对大型预训练语言模型进行进一步训练（微调）。使用如SocialIQA、CommonsenseQA和PIQA等数据集，使模型适应于对社会互动、概念属性和物理直觉的推理。

3.2 知识图谱嵌入

此方法明确地整合了结构化的外部知识源。本文重点介绍了两个著名的知识图谱：

ConceptNet：一个包含关于词语和短语的通用世界知识的语义网络。
ATOMIC：一个专注于日常事件推断性知识的知识图谱，捕捉关于参与者原因、结果和心理状态的“如果-那么”关系。

模型被设计为在对话处理过程中从这些知识图谱中检索信息并进行推理。基于Transformer、在ConceptNet和ATOMIC上训练的神经网络模型COMET被引用为一个关键示例，它能够生成新颖的常识推理。

3.3 自然语言解释

一种新兴的方法不仅训练模型生成答案，还训练其生成一个使用常识来证明答案合理性的自然语言解释。这旨在使模型的推理过程更加透明，并可能更加稳健。

4. 基准测试与评估指标

评估对话中的常识推理是复杂的。本文讨论了几个基准测试：

任务特定基准测试：用于评估特定推理技能的专用数据集（例如，PIQA中的物理推理，SocialIQA中的社会推理）。
集成对话基准测试：在更广泛的对话任务中进行评估，例如常识对话数据集，它测试模型的回复是否与常识事实一致。
人工评估：最终，由人类判断的对话自然度和连贯性，仍然是一个关键（尽管主观）的指标。

常见的自动评估指标包括多项选择题的准确率、用于回复质量的BLEU/ROUGE分数，以及为衡量事实一致性或推理合理性而设计的新颖指标。

5. 对SOTA模型的初步观察

本文对两个领先的开放域对话模型进行了初步分析：BlenderBot 3和LaMDA。尽管它们能力先进，但这两个模型在常识推理方面都表现出明显的缺陷。例子包括：

生成违反基本物理定律的回复（例如，暗示一个物体可以同时出现在两个地方）。
未能理解隐含的社会线索或规范。
在单轮对话中产生事实不一致的陈述。

这些观察结果强烈表明需要在该领域进行重点研究，因为此类缺陷直接损害了用户信任和交互的自然度感知。

核心见解

即使是最先进的对话模型（如BlenderBot3、LaMDA）也在常识方面表现出关键差距，这凸显了常识推理是一个根本性的前沿问题，而非次要挑战。

6. 技术细节与数学表述

知识图谱的整合通常涉及检索增强生成框架。给定对话上下文 $C$ 和知识图谱 $\mathcal{K}$，模型的目标可以表述为生成一个最大化以下概率的回复 $R$：

$P(R | C, \mathcal{K}) = \sum_{k \in \mathcal{K}_C} P(k | C) \cdot P(R | C, k)$

其中 $\mathcal{K}_C$ 是基于上下文 $C$ 从 $\mathcal{K}$ 中检索到的相关知识三元组的子集。项 $P(k | C)$ 表示检索模型选择知识三元组 $k$ 的概率，而 $P(R | C, k)$ 是在给定上下文和选定知识的情况下生成回复的概率。像COMET这样的模型通过在格式化为 $(head, relation, tail)$ 的知识图谱三元组上微调Transformer（例如GPT-2）来实现这一点，使其能够为新的 $(head, relation)$ 查询生成合理的 $tail$ 补全。

7. 分析框架：案例研究

场景：评估聊天机器人对简单叙述的理解。

用户输入：“我给自己倒了一杯橙汁，但电话响了。当我回来时，杯子空了。”

分析框架：

知识检索：系统应检索相关的常识事实：液体可以被饮用。宠物（如猫）可以喝液体。人们会接电话。
推理生成：使用像COMET这样的模型，为事件“一杯果汁无人看管”生成可能的推理：“如果X将饮料无人看管，那么宠物可能会喝掉它”（ATOMIC关系：xEffect）。
假设评分：评估哪个推断出的解释（“有人喝了它”、“它蒸发了”、“宠物喝了它”）最符合上下文和物理合理性。正确的推理依赖于关于典型家庭事件的未言明的世界知识。
回复构建：生成一个连贯的后续问题或陈述：“哦不，是你的猫喝了吗？”对比一个不合理的回复：“它变成气体了吗？”

这个框架突显了从检索到推理再到上下文整合所需的多步骤推理过程。

8. 未来应用与研究方向

具备常识感知的对话式AI的未来发展涉及几个关键方向：

多模态常识：将视觉、听觉和感官知识与语言相结合，正如OpenAI的CLIP和DALL-E等模型所开创的，它们将文本与视觉概念联系起来。未来的对话代理可能需要推理对话中描述的场景。
动态知识图谱：超越静态知识图谱，转向能够像人类一样从交互中持续学习和更新常识知识的系统。
因果推理：深化模型对因果关系的理解，这是常识的核心组成部分。Judea Pearl的因果层次结构研究表明，从关联推理转向干预和反事实推理对于构建稳健的AI至关重要。
个性化与文化常识：开发能够理解因个人、社区和文化而异的常识规范的模型。
神经符号整合：将神经网络（如Transformer）的模式识别能力与符号AI系统的显式逻辑推理能力相结合。这种混合方法，正如麻省理工学院概率符号模型所探索的，是实现可处理且可解释的常识推理的一条有前景的途径。

9. 参考文献

Richardson, C., & Heck, L. (2023). Commonsense Reasoning for Conversational AI: A Survey of the State of the Art. Workshop on Knowledge Augmented Methods for NLP, AAAI 2023.
Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. Proceedings of AAAI.
Sap, M., et al. (2019). ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning. Proceedings of AAAI.
Bosselut, A., et al. (2019). COMET: Commonsense Transformers for Automatic Knowledge Graph Construction. Proceedings of ACL.
Gao, J., et al. (2018). Neural Approaches to Conversational AI. Foundations and Trends® in Information Retrieval.
Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of ICML (CLIP).

分析师视角：常识鸿沟

核心见解：Richardson和Heck的综述揭示了现代AI中一个根本性但常被低估的事实：我们最复杂的语言模型是在语义真空中运作的、卓越的模式匹配器。它们掌握了语言的“如何”，但缺乏“为何”——即支撑意义的基础世界模型。这不是一个微小的技术缺陷；而是一个架构性缺陷，限制了AI在现实应用中的效用和可信度。正如作者所指出的，即使是像LaMDA和BlenderBot3这样的旗舰模型，在简单的人类推理任务上也会失败，这一差距呼应了在其他AI领域（如计算机视觉模型尽管感知能力强但缺乏物理理解）观察到的局限性。

逻辑脉络、优势与缺陷：本文的优势在于其清晰的分类法——将方法归类为微调、知识图谱嵌入和解释。这个框架有效地划分了混乱的研究格局。对ConceptNet和ATOMIC等知识图谱的强调是恰当的；它们代表了将常识“封装”起来的最具体尝试。然而，该综述也不经意地突显了该领域的核心弱点：依赖于脆弱、静态且必然不完整的知识库。ConceptNet虽然有价值，但只是共识现实的快照，缺乏现实世界知识的动态性、情境性和常常矛盾的本质。COMET模型生成知识的方法是一个巧妙的变通方案，但它存在幻觉出听起来合理但错误的“事实”的风险，是用一个问题换另一个问题。关于基准测试的讨论进一步揭示了一个元问题：我们缺乏评估推理深度的稳健自动指标，常常退而求助于多项选择题准确率或浅层的相似度分数，这些是真实理解的糟糕替代品。

可操作的见解：前进的道路不仅仅是扩展现有范式。首先，该领域必须优先考虑因果和反事实推理，超越相关性。正如Judea Pearl的工作所论证的，理解“如果……会怎样”和“为什么”是稳健智能的基石。其次，我们需要转向神经符号整合。纯粹的神经方法数据饥渴且不透明；纯粹的符号系统则脆弱。混合模型利用神经网络进行感知和模式匹配，同时利用符号引擎进行逻辑演绎，提供了一条有前景（尽管计算上具有挑战性）的路径。像麻省理工学院CSAIL这样的机构正在这方面取得进展。最后，评估必须进化。我们需要能够对推理链进行压力测试、要求提供理由并惩罚矛盾的基准测试，超越单轮任务，转向能够暴露逻辑不一致性的多步骤对话叙事。对话式AI的未来不仅仅是更好的聊天；而是构建与我们共享对世界理解的机器，这一目标仍然遥不可及，但多亏了像本文这样的综述，它现在被更清晰地定义了。