2.1 对话理解
模型必须推断未言明的意图、消除歧义并理解隐含的上下文。例如,理解“我跑去商店”暗示了一种交通方式和购买意图,而不仅仅是物理上的移动。
本综述论文探讨了将常识推理融入最先进的对话式人工智能系统所面临的关键挑战。尽管基于Transformer的模型(如BERT、GPT和T5)在理解语言句法和上下文语义方面取得了显著成功,但它们仍然难以处理需要常识知识的任务——这些关于世界的知识是人类通常认为理所当然的。本文认为,这一差距严重阻碍了真正自然、连贯的对话系统的发展。
常识对于机器智能的重要性早已被认识到,然而,如何系统化编码并整合这种知识的通用方案仍然难以捉摸。本综述聚焦于常识推理与对话式AI的交叉领域,回顾了相关的数据集、方法论和评估基准。
常识推理在对话式AI的各个方面都至关重要。本文指出了几个其缺失最为明显的核心问题领域。
模型必须推断未言明的意图、消除歧义并理解隐含的上下文。例如,理解“我跑去商店”暗示了一种交通方式和购买意图,而不仅仅是物理上的移动。
生成连贯、相关且符合社会规范的回复,需要具备对社会规范、物理定律和典型人类行为的知识。缺乏常识的模型可能会生成物理上不可能或社交上尴尬的回复。
协助用户完成任务(例如,预订旅行、故障排除)需要对一系列动作、因果关系以及世界中物体属性进行推理。
本综述将主要方法归纳为三种将常识整合到对话式AI模型中的主要策略。
这种方法涉及在专门为常识推理任务策划的数据集上对大型预训练语言模型进行进一步训练(微调)。使用如SocialIQA、CommonsenseQA和PIQA等数据集,使模型适应于对社会互动、概念属性和物理直觉的推理。
此方法明确地整合了结构化的外部知识源。本文重点介绍了两个著名的知识图谱:
模型被设计为在对话处理过程中从这些知识图谱中检索信息并进行推理。基于Transformer、在ConceptNet和ATOMIC上训练的神经网络模型COMET被引用为一个关键示例,它能够生成新颖的常识推理。
一种新兴的方法不仅训练模型生成答案,还训练其生成一个使用常识来证明答案合理性的自然语言解释。这旨在使模型的推理过程更加透明,并可能更加稳健。
评估对话中的常识推理是复杂的。本文讨论了几个基准测试:
常见的自动评估指标包括多项选择题的准确率、用于回复质量的BLEU/ROUGE分数,以及为衡量事实一致性或推理合理性而设计的新颖指标。
本文对两个领先的开放域对话模型进行了初步分析:BlenderBot 3和LaMDA。尽管它们能力先进,但这两个模型在常识推理方面都表现出明显的缺陷。例子包括:
这些观察结果强烈表明需要在该领域进行重点研究,因为此类缺陷直接损害了用户信任和交互的自然度感知。
即使是最先进的对话模型(如BlenderBot3、LaMDA)也在常识方面表现出关键差距,这凸显了常识推理是一个根本性的前沿问题,而非次要挑战。
知识图谱的整合通常涉及检索增强生成框架。给定对话上下文 $C$ 和知识图谱 $\mathcal{K}$,模型的目标可以表述为生成一个最大化以下概率的回复 $R$:
$P(R | C, \mathcal{K}) = \sum_{k \in \mathcal{K}_C} P(k | C) \cdot P(R | C, k)$
其中 $\mathcal{K}_C$ 是基于上下文 $C$ 从 $\mathcal{K}$ 中检索到的相关知识三元组的子集。项 $P(k | C)$ 表示检索模型选择知识三元组 $k$ 的概率,而 $P(R | C, k)$ 是在给定上下文和选定知识的情况下生成回复的概率。像COMET这样的模型通过在格式化为 $(head, relation, tail)$ 的知识图谱三元组上微调Transformer(例如GPT-2)来实现这一点,使其能够为新的 $(head, relation)$ 查询生成合理的 $tail$ 补全。
场景:评估聊天机器人对简单叙述的理解。
用户输入:“我给自己倒了一杯橙汁,但电话响了。当我回来时,杯子空了。”
分析框架:
这个框架突显了从检索到推理再到上下文整合所需的多步骤推理过程。
具备常识感知的对话式AI的未来发展涉及几个关键方向:
核心见解:Richardson和Heck的综述揭示了现代AI中一个根本性但常被低估的事实:我们最复杂的语言模型是在语义真空中运作的、卓越的模式匹配器。它们掌握了语言的“如何”,但缺乏“为何”——即支撑意义的基础世界模型。这不是一个微小的技术缺陷;而是一个架构性缺陷,限制了AI在现实应用中的效用和可信度。正如作者所指出的,即使是像LaMDA和BlenderBot3这样的旗舰模型,在简单的人类推理任务上也会失败,这一差距呼应了在其他AI领域(如计算机视觉模型尽管感知能力强但缺乏物理理解)观察到的局限性。
逻辑脉络、优势与缺陷:本文的优势在于其清晰的分类法——将方法归类为微调、知识图谱嵌入和解释。这个框架有效地划分了混乱的研究格局。对ConceptNet和ATOMIC等知识图谱的强调是恰当的;它们代表了将常识“封装”起来的最具体尝试。然而,该综述也不经意地突显了该领域的核心弱点:依赖于脆弱、静态且必然不完整的知识库。ConceptNet虽然有价值,但只是共识现实的快照,缺乏现实世界知识的动态性、情境性和常常矛盾的本质。COMET模型生成知识的方法是一个巧妙的变通方案,但它存在幻觉出听起来合理但错误的“事实”的风险,是用一个问题换另一个问题。关于基准测试的讨论进一步揭示了一个元问题:我们缺乏评估推理深度的稳健自动指标,常常退而求助于多项选择题准确率或浅层的相似度分数,这些是真实理解的糟糕替代品。
可操作的见解:前进的道路不仅仅是扩展现有范式。首先,该领域必须优先考虑因果和反事实推理,超越相关性。正如Judea Pearl的工作所论证的,理解“如果……会怎样”和“为什么”是稳健智能的基石。其次,我们需要转向神经符号整合。纯粹的神经方法数据饥渴且不透明;纯粹的符号系统则脆弱。混合模型利用神经网络进行感知和模式匹配,同时利用符号引擎进行逻辑演绎,提供了一条有前景(尽管计算上具有挑战性)的路径。像麻省理工学院CSAIL这样的机构正在这方面取得进展。最后,评估必须进化。我们需要能够对推理链进行压力测试、要求提供理由并惩罚矛盾的基准测试,超越单轮任务,转向能够暴露逻辑不一致性的多步骤对话叙事。对话式AI的未来不仅仅是更好的聊天;而是构建与我们共享对世界理解的机器,这一目标仍然遥不可及,但多亏了像本文这样的综述,它现在被更清晰地定义了。