1. 緒論

本綜述論文探討將常識推理整合至現代對話式人工智慧系統的關鍵挑戰。儘管大型預訓練語言模型(例如 BERT、GPT、T5)在理解語法和上下文方面取得了顯著成功,但它們根本上缺乏人類視為理所當然的隱含世界知識。本文認為,此一差距是阻礙人工智慧進行真正自然、連貫且智慧對話的主要瓶頸。作者喬治亞理工學院的 Christopher Richardson 和 Larry Heck 將其工作定位為對當前格局——方法、資料集和評估——的必要描繪,以引導這個新興但至關重要領域的未來研究。

2. 對話式人工智慧中的常識推理問題

本文闡述了常識缺失最為明顯的特定對話任務。

2.1 對話連貫性與顯著性

在多輪對話中保持邏輯一致且主題相關。若缺乏常識,模型會產生語法正確但語義荒謬或不相關的回應。

2.2 問答與任務完成

回答需要未言明假設的問題或完成指令。例如,理解「燒開水壺」意味著後續步驟是「倒水」,即使沒有明確說明。

2.3 閒聊與社交互動

理解幽默、諷刺、同理心和社會規範。這需要對人類心理和社會慣例的深度模型,而當前模型主要透過統計推斷而非真正理解。

3. 整合常識的方法

本綜述對文獻中探索的主要技術方法進行了分類。

3.1 模型微調

在富含常識知識的資料集(例如 ATOMIC、SocialIQA)上進一步訓練大型語言模型。此方法旨在將常識隱式地融入模型的參數中。

3.2 知識圖譜基礎

將模型明確連接到結構化知識庫,如 ConceptNet 或 ATOMIC。模型在推理過程中檢索或基於這些圖譜進行推理。一個關鍵範例是 COMET(Bosselut 等人,2019),這是一個訓練用於從這些圖譜生成新知識元組的 Transformer 模型。

3.3 自然語言解釋

訓練模型不僅生成答案,還生成自然語言的推理軌跡或解釋。這迫使模型闡明隱含步驟,從而可能提高穩健性。

4. 基準測試與評估指標

4.1 常見資料集

  • CommonsenseQA:需要常識的選擇題問答。
  • SocialIQA:專注於社交和情感常識。
  • PIQA:用於遵循指令的物理常識。
  • DialogRE:對對話中的關係進行推理。

4.2 評估指標

除了標準準確率外,該領域還使用以下指標:

  • 人工評估:針對連貫性、趣味性和合理性。
  • 知識-F1:衡量與真實知識事實的重疊程度。
  • 推理鏈正確性:評估生成解釋的邏輯嚴謹性。

5. 對頂尖模型的初步觀察

作者對領先的開放對話模型 BlenderBot 3 和 LaMDA 提出了關鍵的實務分析。他們的觀察結果令人震驚:儘管這些模型規模龐大且複雜,但它們經常在簡單的常識任務上失敗。例子包括在對話中生成矛盾的陳述,或無法理解基本的物理限制。這些實證證據有力地支持了本文的中心論點:基準測試的表現並不等同於在開放式互動中具備穩健、可用的常識。

6. 核心見解與分析

核心見解:對話式人工智慧領域正遭受嚴重的「常識債務」。我們在不穩固的隱含基礎上建造了摩天大樓(大型語言模型)。本綜述正確地指出,核心問題不在於缺乏技術,而在於現代自然語言處理的統計、模式匹配本質與人類常識的符號化、因果性和類比性本質之間的根本不匹配。正如 Chollet(2019)在開創性著作《論智慧的衡量》中指出的,真正的智慧需要在陌生情境中習得技能並進行泛化——若沒有豐富的世界模型,這是不可能實現的。

邏輯流程:本文結構邏輯清晰且具說服力。它從定義問題及其表現形式(第1-2節),到列舉嘗試過的工程解決方案(第3節),再到檢視我們如何衡量進展(第4節),最後提供具體證據表明當前解決方案不足(第5節)。此流程反映了科學方法:假設(缺乏常識)、實驗(各種整合方法)、測量(基準測試)和結論(尚未解決)。

優點與缺陷:本文最大的優點是對頂尖模型進行了具體、批判性的評估。它超越了學術抽象,展示了真實的失敗模式。其主要的缺陷(綜述類文章常見)在於其描述性而非規範性的本質。它描繪了領域版圖,但對哪些路徑最有前景提供的指導有限。它淡化了純基於 Transformer 的模型在因果推理方面的架構限制,而這一點在麻省理工學院 CSAIL 等機構關於神經符號整合的研究中被重點強調。

可行見解:對於從業者和研究人員而言,結論很明確:不要再將常識僅僅視為另一個用於微調的資料集。該領域需要範式轉移。1) 投資神經符號架構:將神經網路與明確、可操作的知識表示相結合的混合模型(例如可微分歸納邏輯程式設計相關工作)是必要的方向。2) 開發更好的模擬環境:就像 OpenAI 為強化學習開發的 Gym,我們需要豐富、互動式的模擬器(靈感來自 AllenAI 的 THOR 等平台),讓智慧體可以透過具身經驗和後果學習常識,而不僅僅是文本。3) 重新思考評估方式:從靜態的問答基準測試轉向動態、互動式的評估,模型必須在長時間內展現一致的世界理解,類似於 ARC(抽象與推理語料庫)挑戰背後的原則。

7. 技術細節

知識圖譜基礎方法通常涉及檢索增強生成框架。形式上,給定對話上下文 $C$,模型從知識圖譜 $\mathcal{G}$ 中檢索一組相關的常識知識元組 $K = \{(h_i, r_i, t_i)\}$,其中 $h$ 是頭實體,$r$ 是關係,$t$ 是尾實體。最終回應 $R$ 是基於 $C$ 和 $K$ 生成的:

$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$

像 COMET 這樣的模型透過微調一個 Transformer(例如 GPT-2)來實現這一點,給定 $(h, r)$ 預測尾實體 $t$,有效地學習在潛在空間中遍歷圖譜:$t = \text{COMET}(h, r)$。

8. 實驗結果與圖表說明

雖然 PDF 預覽不包含明確的圖表,但描述的初步觀察暗示著顯著的效能差距。我們可以構想一個假設的長條圖,比較人類與 BlenderBot3 和 LaMDA 在一系列常識對話任務(例如連貫性、物理推理、社交推理)上的表現。Y 軸代表分數(0-100)。圖表將顯示:

  • 人類表現:在所有任務類別中均為持續的高長條(約 90-95)。
  • 頂尖模型(BlenderBot3/LaMDA):顯示高變異性的長條——在連貫性上可能約 80 分(它們可以模仿模式),但在需要更深理解的物理和社交推理任務上急劇下降至約 50-60 分。誤差範圍會很大,表示不一致。
  • 關鍵要點:視覺上的差距,特別是在物理和社交推理方面,將鮮明地說明本文關於根本性限制而非僅需漸進式改進的主張。

9. 分析框架範例

情境:評估對話智慧體對簡單敘事的理解。

對話上下文:使用者:「我剛養了一隻新的小狗!牠精力真旺盛。我開門時把牠和我的最愛鞋子留在客廳了。」

智慧體回應 A(缺乏常識):「真好。你的鞋子是什麼顏色?」

智慧體回應 B(具備常識):「噢不,你可能得去看看那些鞋子!小狗很愛啃咬東西。」

框架分析:

  1. 知識檢索:模型是否存取如(小狗,能夠,啃咬)、(鞋子,由…製成,皮革/布料)、(啃咬,導致,損壞)等元組?
  2. 因果推理:能否連結這些事實:新小狗 + 精力旺盛 + 無人看管 + 可啃咬物體 → 高損壞機率。
  3. 社交/語用推理:是否推斷出使用者未言明的擔憂(擔心鞋子)並生成相關、有同理心的警告?
回應 A 三項皆失敗。回應 B 展示了對此隱含框架的成功應用。當前的頂尖模型在非微不足道的比例下會生成回應 A。

10. 未來應用與方向

解決常識推理將開啟變革性的應用:

  • 真正的個人人工智慧助理:能夠主動管理複雜任務的智慧體(「考慮我的行程、飲食目標和冰箱裡已有的東西,為本週訂購雜貨」)。
  • 進階教育導師:能夠透過模擬學生的心理狀態並生成蘇格拉底式解釋來診斷其誤解的系統。
  • 心理健康陪伴者:透過理解社會和心理規範,能夠提供細膩情感支持和危機檢測的聊天機器人。
  • 虛擬世界中的自主智慧體:遊戲或元宇宙中具有可信動機、長期目標和環境理解能力的非玩家角色。
  • 研究方向:未來在於具身、多模態學習(從影片、音訊和物理互動中學習)、允許進行反事實推理的因果世界模型,以及由 COMET 等人工智慧系統動態更新的大規模、精選的常識知識圖譜

11. 參考文獻

  1. Richardson, C., & Heck, L. (2023). Commonsense Reasoning for Conversational AI: A Survey of the State of the Art. Workshop on Knowledge Augmented Methods for NLP, AAAI 2023.
  2. Bosselut, A., Rashkin, H., Sap, M., Malaviya, C., Celikyilmaz, A., & Choi, Y. (2019). COMET: Commonsense Transformers for Automatic Knowledge Graph Construction. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
  3. Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. Proceedings of the AAAI Conference on Artificial Intelligence.
  4. Sap, M., Le Bras, R., Allaway, E., Bhagavatula, C., Lourie, N., Rashkin, H., ... & Choi, Y. (2019). ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning. Proceedings of the AAAI Conference on Artificial Intelligence.
  5. Chollet, F. (2019). On the Measure of Intelligence. arXiv preprint arXiv:1911.01547.
  6. Storks, S., Gao, Q., & Chai, J. Y. (2019). Recent Advances in Natural Language Inference: A Survey of Benchmarks, Resources, and Approaches. arXiv preprint arXiv:1904.01172.
  7. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems.