2.1 对话连贯性与显著性
在多轮对话中保持逻辑一致和主题相关。缺乏常识的模型会生成语法正确但语义荒谬或不相关的回复。
本综述论文探讨了将常识推理融入现代对话式AI系统的关键挑战。尽管大型预训练语言模型(如BERT、GPT、T5)在理解语法和上下文方面取得了显著成功,但它们从根本上缺乏人类习以为常的、隐含的世界性知识。本文认为,这一差距是阻碍AI进行真正自然、连贯和智能对话的主要瓶颈。来自佐治亚理工学院的作者Christopher Richardson和Larry Heck将他们的工作定位为对当前格局(方法、数据集和评估)的必要梳理,旨在指导这个新兴但至关重要的领域的未来研究。
本文阐述了常识缺失最为明显的具体对话任务。
在多轮对话中保持逻辑一致和主题相关。缺乏常识的模型会生成语法正确但语义荒谬或不相关的回复。
回答需要未言明假设的问题或完成相关指令。例如,理解“烧开水壶”意味着后续步骤是“倒水”,即使没有明确说明。
理解幽默、讽刺、共情和社会规范。这需要深刻的人类心理和社会习俗模型,而当前模型主要通过统计推断而非真正理解来获取这些知识。
本综述对文献中探索的主要技术方法进行了分类。
在富含常识知识的数据集(如ATOMIC、SocialIQA)上进一步训练大型语言模型。此方法旨在将常识隐式地融入模型的参数中。
将模型显式地连接到结构化知识库,如ConceptNet或ATOMIC。模型在推理过程中检索或基于这些图谱进行推理。一个关键示例是COMET(Bosselut等人,2019),这是一个经过训练、能从这些图谱生成新知识三元组的Transformer模型。
训练模型不仅要生成答案,还要生成自然语言的推理轨迹或解释。这迫使模型阐明隐含的步骤,从而可能提高鲁棒性。
除了标准准确率外,该领域还使用以下指标:
作者对领先的开放对话模型BlenderBot 3和LaMDA提出了批判性的实践分析。他们的观察结果令人警醒:尽管这些模型规模庞大且技术复杂,但它们经常在简单的常识任务上失败。例如,在对话中生成自相矛盾的陈述,或无法理解基本的物理约束。这一实证有力地支持了本文的中心论点:在开放交互中,基准测试的性能并不等同于稳健、可用的常识。
核心见解:对话式AI领域正遭受严重的“常识债务”。我们在不稳固的、隐含的基础上建造了摩天大楼(大规模LLM)。本综述正确地指出,核心问题不在于缺乏技术,而在于现代NLP的统计、模式匹配本质与人类常识的符号化、因果性和类比性本质之间存在根本性不匹配。正如Chollet(2019)在开创性著作《论智能的衡量》中指出的,真正的智能需要在新情境中获取技能并进行泛化——如果没有丰富的世界模型,这是不可能实现的。
逻辑脉络:本文结构逻辑清晰且具有说服力。它从定义问题及其表现(第1-2节)开始,到列举已尝试的工程解决方案(第3节),再到审视我们如何衡量进展(第4节),最后提供具体证据表明当前解决方案不足(第5节)。这一脉络遵循了科学方法:假设(缺乏常识)、实验(各种集成方法)、测量(基准测试)和结论(尚未解决)。
优势与不足:本文最大的优势在于其对前沿模型具体而批判性的评估。它超越了学术抽象,展示了真实的失败模式。其主要的不足(综述类文章常见)在于其描述性而非指导性。它描绘了领域版图,但对哪些路径最有前景提供的指导有限。它低估了纯基于Transformer的模型在因果推理方面的架构局限性,这一点在麻省理工学院CSAIL等机构关于神经符号集成的研究中被重点强调。
可操作的见解:对于从业者和研究人员来说,结论很明确:不要再把常识仅仅当作另一个用于微调的数据集。该领域需要范式转变。1)投资神经符号架构:将神经网络与显式、可操作的知识表示相结合的混合模型(如可微分归纳逻辑编程的相关工作)是必要方向。2)开发更好的模拟环境:就像OpenAI为强化学习开发的Gym一样,我们需要丰富、交互式的模拟器(灵感来自AllenAI的THOR等平台),让智能体可以通过具身体验和后果学习常识,而不仅仅是文本。3)重新思考评估方式:从静态的问答基准转向动态的、交互式的评估,模型必须在一段时间内展示出一致的世界理解能力,类似于ARC(抽象与推理语料库)挑战背后的原则。
知识图谱关联方法通常涉及检索增强生成框架。形式上,给定对话上下文 $C$,模型从知识图谱 $\mathcal{G}$ 中检索一组相关的常识知识三元组 $K = \{(h_i, r_i, t_i)\}$,其中 $h$ 是头实体,$r$ 是关系,$t$ 是尾实体。最终回复 $R$ 通过同时以 $C$ 和 $K$ 为条件生成:
$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$
像COMET这样的模型通过微调一个Transformer(例如GPT-2)来预测给定 $(h, r)$ 的尾实体 $t$ 来实现这一点,从而有效地学习在潜在空间中遍历图谱:$t = \text{COMET}(h, r)$。
虽然PDF预览不包含明确的图表,但所描述的初步观察暗示了显著的性能差距。我们可以构想一个假设的条形图,比较人类与BlenderBot3和LaMDA在一系列常识对话任务(例如,连贯性、物理推理、社交推理)上的表现。Y轴将代表一个分数(0-100)。该图表将显示:
场景:评估对话智能体对简单叙述的理解。
对话上下文: 用户:“我刚养了一只新的小狗!它精力太旺盛了。我去应门的时候把它和我的最爱鞋子一起留在客厅了。”
智能体回复A(缺乏常识): “那很好。你的鞋子是什么颜色的?”
智能体回复B(具备常识): “哦不,你可能得去看看那些鞋子!小狗喜欢啃东西。”
框架分析:
解决常识推理将解锁变革性的应用: