對話式人工智慧的常識推理：技術現況綜述

1. 緒論

本綜述論文旨在探討將常識推理整合至頂尖對話式人工智慧系統所面臨的關鍵挑戰。儘管基於Transformer的模型（如BERT、GPT和T5）在理解語言語法與上下文語義方面取得了顯著成功，但在需要常識知識（即人類通常視為理所當然的關於世界的知識）的任務上，它們仍然力有未逮。本文認為，這一差距嚴重阻礙了真正自然且連貫的對話系統的發展。

常識對於機器智慧的重要性早已被認知，然而，將此類知識編碼並整合的通用方案仍然難以捉摸。本綜述聚焦於常識推理與對話式人工智慧的交叉領域，回顧了相關的資料集、方法論與評估基準。

2. 對話式人工智慧中的常識推理問題

常識推理在對話式人工智慧的各個層面都至關重要。本文指出了幾個其缺失最為明顯的關鍵問題領域。

2.1 對話理解

模型必須推斷未明說的意圖、解決歧義並理解隱含的上下文。例如，理解「我正跑去商店」暗示了一種交通方式以及購買意圖，而不僅僅是身體移動。

2.2 回應生成

生成連貫、相關且符合社會規範的回應，需要具備對社會規範、物理法則以及典型人類行為的知識。缺乏常識的模型可能會生成物理上不可能或社交上尷尬的回應。

2.3 任務導向對話

協助使用者完成任務（例如，預訂旅行、故障排除）需要對行動序列、因果關係以及世界中物體的屬性進行推理。

3. 整合常識的方法

本綜述將整合常識到對話式人工智慧模型的主要方法分為三大策略。

3.1 模型微調

此方法涉及在專門為常識推理任務策劃的資料集上，對大型預訓練語言模型進行進一步訓練（微調）。使用如SocialIQA、CommonsenseQA和PIQA等資料集，使模型適應於對社交互動、概念屬性及物理直覺進行推理。

3.2 知識圖譜基礎

此方法明確地整合了結構化的外部知識來源。本文重點介紹了兩個著名的知識圖譜：

ConceptNet：一個包含關於詞語和短語的一般世界知識的語義網絡。
ATOMIC：一個專注於日常事件推論知識的知識圖譜，捕捉關於參與者原因、結果及心理狀態的「如果-那麼」關係。

模型被設計為在對話處理過程中檢索並基於這些知識圖譜中的資訊進行推理。以ConceptNet和ATOMIC訓練的基於Transformer的神經網路模型COMET，被引用為一個能夠生成新穎常識推論的關鍵範例。

3.3 自然語言解釋

一種新興的方法不僅訓練模型產生答案，還訓練其生成一個使用常識來證明答案合理性的自然語言解釋。這旨在使模型的推理過程更加透明，並可能使其更加穩健。

4. 基準測試與評估指標

評估對話中的常識推理是複雜的。本文討論了幾個基準測試：

任務特定基準測試：用於評估特定推理技能的專用資料集（例如，PIQA中的物理推理，SocialIQA中的社交推理）。
整合對話基準測試：在更廣泛的對話任務中進行評估，例如Commonsense Dialogue資料集，它測試模型的回應是否與常識事實一致。
人工評估：最終，由人類判斷對話的自然度與連貫性，仍然是一個關鍵（儘管主觀）的指標。

常見的自動化指標包括選擇題準確率、用於回應品質的BLEU/ROUGE分數，以及為衡量事實一致性或推理合理性而設計的新穎指標。

5. 對頂尖模型的初步觀察

本文對兩個領先的開放對話模型：BlenderBot 3和LaMDA，進行了初步分析。儘管它們具備先進能力，但兩個模型在常識推理上都表現出顯著的失敗。例子包括：

生成違反基本物理定律的回應（例如，暗示一個物體可以同時出現在兩個地方）。
未能理解隱含的社交暗示或規範。
在單一對話輪次中產生事實不一致的陳述。

這些觀察強烈說明了在此領域進行聚焦研究的必要性，因為此類失敗直接損害了使用者信任以及互動的自然度感知。

關鍵洞察

即使是最先進的對話模型（BlenderBot3、LaMDA）也在常識方面表現出關鍵差距，凸顯出這是一個根本性的前沿問題，而非邊緣挑戰。

6. 技術細節與數學公式

知識圖譜的整合通常涉及一個檢索增強生成框架。給定對話上下文 $C$ 和知識圖譜 $\mathcal{K}$，模型的目標可以表述為生成一個回應 $R$，以最大化：

$P(R | C, \mathcal{K}) = \sum_{k \in \mathcal{K}_C} P(k | C) \cdot P(R | C, k)$

其中 $\mathcal{K}_C$ 是基於上下文 $C$ 從 $\mathcal{K}$ 中檢索出的相關知識三元組子集。項 $P(k | C)$ 代表檢索模型選擇知識三元組 $k$ 的機率，而 $P(R | C, k)$ 是在給定上下文和所選知識下生成回應的機率。像COMET這樣的模型透過在格式化為 $(head, relation, tail)$ 的知識圖譜三元組上微調一個Transformer（例如GPT-2）來實現這一點，使其能夠為新的 $(head, relation)$ 查詢生成合理的 $tail$ 補全。

7. 分析框架：個案研究

情境：評估聊天機器人對簡單敘事的理解。

使用者輸入：「我給自己倒了一杯柳橙汁，但電話響了。當我回來時，杯子空了。」

分析框架：

知識檢索：系統應檢索相關的常識事實：液體可以被飲用。寵物（如貓）可以喝液體。人們會接電話。
推論生成：使用像COMET這樣的模型，為事件「一杯果汁無人看管」生成可能的推論：「如果X將飲料無人看管，那麼寵物可能會喝掉它」（ATOMIC關係：xEffect）。
假設評分：評估哪個推論出的解釋（「有人喝了它」、「它蒸發了」、「寵物喝了它」）最符合上下文和物理合理性。正確的推論依賴於關於典型家庭事件的未明說的世界知識。
回應構建：生成一個連貫的後續問題或陳述：「哦不，是你的貓喝了嗎？」相對於一個不合理的回應：「它變成氣體了嗎？」

此框架突顯了從檢索到推論再到上下文整合所需的多步驟推理過程。

8. 未來應用與研究方向

具備常識感知的對話式人工智慧的未來發展涉及幾個關鍵方向：

多模態常識：將視覺、聽覺和感官知識與語言整合，正如OpenAI的CLIP和DALL-E等模型所開創的，它們將文本與視覺概念連結。未來的對話代理可能需要對對話中描述的場景進行推理。
動態知識圖譜：超越靜態知識圖譜，發展能夠從互動中持續學習和更新常識知識的系統，類似於人類的做法。
因果推理：深化模型對因果關係的理解，這是常識的核心組成部分。Judea Pearl的因果階層研究指出，從關聯性推理轉向介入性與反事實推理，對於穩健的人工智慧至關重要。
個人化與文化常識：開發能夠理解因個人、社群和文化而異的常識規範的模型。
神經符號整合：將神經網路（如Transformer）的模式識別能力與符號人工智慧系統的明確邏輯推理能力相結合。這種混合方法，正如麻省理工學院機率符號模型所探索的，是實現可處理且可解釋的常識推理的一個有前景的途徑。

9. 參考文獻

Richardson, C., & Heck, L. (2023). Commonsense Reasoning for Conversational AI: A Survey of the State of the Art. Workshop on Knowledge Augmented Methods for NLP, AAAI 2023.
Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. Proceedings of AAAI.
Sap, M., et al. (2019). ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning. Proceedings of AAAI.
Bosselut, A., et al. (2019). COMET: Commonsense Transformers for Automatic Knowledge Graph Construction. Proceedings of ACL.
Gao, J., et al. (2018). Neural Approaches to Conversational AI. Foundations and Trends® in Information Retrieval.
Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of ICML (CLIP).

分析師觀點：常識鴻溝

核心洞察：Richardson和Heck的綜述揭露了現代人工智慧中一個根本但常被低估的事實：我們最先進的語言模型是在語義真空中運作的傑出模式匹配器。它們掌握了語言的「如何」，但缺乏「為何」——即支撐意義的基礎世界模型。這不是一個次要的技術缺陷；這是一個架構性缺陷，限制了人工智慧在現實世界應用中的效用和可信度。正如作者所指出的，即使是像LaMDA和BlenderBot3這樣的旗艦模型，在簡單的人類推理任務上也會失敗，這種差距呼應了在其他人工智慧領域（例如，儘管感知能力強大但缺乏物理理解的電腦視覺模型）觀察到的局限性。

邏輯流程、優勢與缺陷：本文的優勢在於其清晰的分類法——將方法分為微調、知識圖譜基礎和解釋。這個框架有效地劃分了混亂的研究格局。對ConceptNet和ATOMIC等知識圖譜的強調是恰當的；它們代表了將常識閃電裝瓶的最具體嘗試。然而，該綜述也不經意地凸顯了該領域的核心弱點：依賴於脆弱、靜態且必然不完整的知識庫。ConceptNet雖然有價值，但只是共識現實的快照，缺乏真實世界知識的動態性、上下文相關性以及常常矛盾的本質。COMET模型生成知識的方法是一個聰明的變通方案，但它存在幻聽出聽起來合理但錯誤的「事實」的風險，是用一個問題換另一個問題。關於基準測試的討論進一步揭示了一個元問題：我們缺乏評估推理深度的穩健自動化指標，常常退而求其次使用選擇題準確率或淺層相似度分數，這些都是真實理解的拙劣替代品。

可行洞察：前進的道路不僅僅是擴展現有範式。首先，該領域必須優先考慮因果與反事實推理，超越相關性。正如Judea Pearl的研究所論證的，理解「如果」和「為何」是穩健智慧的基石。其次，我們需要轉向神經符號整合。純粹的神經方法資料需求量大且不透明；純粹的符號系統則脆弱。混合模型利用神經網路進行感知和模式匹配，同時結合符號引擎進行邏輯推導，提供了一條有前景（儘管計算上具有挑戰性）的道路。像麻省理工學院CSAIL這樣的機構正在此領域取得進展。最後，評估必須進化。我們需要能夠壓力測試推理鏈、要求合理性證明並懲罰矛盾的基準測試，從單輪任務轉向多步驟對話敘事，以暴露邏輯不一致性。對話式人工智慧的未來不僅僅是更好的聊天；它是關於建造與我們共享世界理解的機器，這個目標仍然遙不可及，但得益於此類綜述，現在定義得更清晰了。