2.1 對話理解
模型必須推斷未明說的意圖、解決歧義並理解隱含的上下文。例如,理解「我正跑去商店」暗示了一種交通方式以及購買意圖,而不僅僅是身體移動。
本綜述論文旨在探討將常識推理整合至頂尖對話式人工智慧系統所面臨的關鍵挑戰。儘管基於Transformer的模型(如BERT、GPT和T5)在理解語言語法與上下文語義方面取得了顯著成功,但在需要常識知識(即人類通常視為理所當然的關於世界的知識)的任務上,它們仍然力有未逮。本文認為,這一差距嚴重阻礙了真正自然且連貫的對話系統的發展。
常識對於機器智慧的重要性早已被認知,然而,將此類知識編碼並整合的通用方案仍然難以捉摸。本綜述聚焦於常識推理與對話式人工智慧的交叉領域,回顧了相關的資料集、方法論與評估基準。
常識推理在對話式人工智慧的各個層面都至關重要。本文指出了幾個其缺失最為明顯的關鍵問題領域。
模型必須推斷未明說的意圖、解決歧義並理解隱含的上下文。例如,理解「我正跑去商店」暗示了一種交通方式以及購買意圖,而不僅僅是身體移動。
生成連貫、相關且符合社會規範的回應,需要具備對社會規範、物理法則以及典型人類行為的知識。缺乏常識的模型可能會生成物理上不可能或社交上尷尬的回應。
協助使用者完成任務(例如,預訂旅行、故障排除)需要對行動序列、因果關係以及世界中物體的屬性進行推理。
本綜述將整合常識到對話式人工智慧模型的主要方法分為三大策略。
此方法涉及在專門為常識推理任務策劃的資料集上,對大型預訓練語言模型進行進一步訓練(微調)。使用如SocialIQA、CommonsenseQA和PIQA等資料集,使模型適應於對社交互動、概念屬性及物理直覺進行推理。
此方法明確地整合了結構化的外部知識來源。本文重點介紹了兩個著名的知識圖譜:
模型被設計為在對話處理過程中檢索並基於這些知識圖譜中的資訊進行推理。以ConceptNet和ATOMIC訓練的基於Transformer的神經網路模型COMET,被引用為一個能夠生成新穎常識推論的關鍵範例。
一種新興的方法不僅訓練模型產生答案,還訓練其生成一個使用常識來證明答案合理性的自然語言解釋。這旨在使模型的推理過程更加透明,並可能使其更加穩健。
評估對話中的常識推理是複雜的。本文討論了幾個基準測試:
常見的自動化指標包括選擇題準確率、用於回應品質的BLEU/ROUGE分數,以及為衡量事實一致性或推理合理性而設計的新穎指標。
本文對兩個領先的開放對話模型:BlenderBot 3和LaMDA,進行了初步分析。儘管它們具備先進能力,但兩個模型在常識推理上都表現出顯著的失敗。例子包括:
這些觀察強烈說明了在此領域進行聚焦研究的必要性,因為此類失敗直接損害了使用者信任以及互動的自然度感知。
即使是最先進的對話模型(BlenderBot3、LaMDA)也在常識方面表現出關鍵差距,凸顯出這是一個根本性的前沿問題,而非邊緣挑戰。
知識圖譜的整合通常涉及一個檢索增強生成框架。給定對話上下文 $C$ 和知識圖譜 $\mathcal{K}$,模型的目標可以表述為生成一個回應 $R$,以最大化:
$P(R | C, \mathcal{K}) = \sum_{k \in \mathcal{K}_C} P(k | C) \cdot P(R | C, k)$
其中 $\mathcal{K}_C$ 是基於上下文 $C$ 從 $\mathcal{K}$ 中檢索出的相關知識三元組子集。項 $P(k | C)$ 代表檢索模型選擇知識三元組 $k$ 的機率,而 $P(R | C, k)$ 是在給定上下文和所選知識下生成回應的機率。像COMET這樣的模型透過在格式化為 $(head, relation, tail)$ 的知識圖譜三元組上微調一個Transformer(例如GPT-2)來實現這一點,使其能夠為新的 $(head, relation)$ 查詢生成合理的 $tail$ 補全。
情境:評估聊天機器人對簡單敘事的理解。
使用者輸入:「我給自己倒了一杯柳橙汁,但電話響了。當我回來時,杯子空了。」
分析框架:
此框架突顯了從檢索到推論再到上下文整合所需的多步驟推理過程。
具備常識感知的對話式人工智慧的未來發展涉及幾個關鍵方向:
核心洞察:Richardson和Heck的綜述揭露了現代人工智慧中一個根本但常被低估的事實:我們最先進的語言模型是在語義真空中運作的傑出模式匹配器。它們掌握了語言的「如何」,但缺乏「為何」——即支撐意義的基礎世界模型。這不是一個次要的技術缺陷;這是一個架構性缺陷,限制了人工智慧在現實世界應用中的效用和可信度。正如作者所指出的,即使是像LaMDA和BlenderBot3這樣的旗艦模型,在簡單的人類推理任務上也會失敗,這種差距呼應了在其他人工智慧領域(例如,儘管感知能力強大但缺乏物理理解的電腦視覺模型)觀察到的局限性。
邏輯流程、優勢與缺陷:本文的優勢在於其清晰的分類法——將方法分為微調、知識圖譜基礎和解釋。這個框架有效地劃分了混亂的研究格局。對ConceptNet和ATOMIC等知識圖譜的強調是恰當的;它們代表了將常識閃電裝瓶的最具體嘗試。然而,該綜述也不經意地凸顯了該領域的核心弱點:依賴於脆弱、靜態且必然不完整的知識庫。ConceptNet雖然有價值,但只是共識現實的快照,缺乏真實世界知識的動態性、上下文相關性以及常常矛盾的本質。COMET模型生成知識的方法是一個聰明的變通方案,但它存在幻聽出聽起來合理但錯誤的「事實」的風險,是用一個問題換另一個問題。關於基準測試的討論進一步揭示了一個元問題:我們缺乏評估推理深度的穩健自動化指標,常常退而求其次使用選擇題準確率或淺層相似度分數,這些都是真實理解的拙劣替代品。
可行洞察:前進的道路不僅僅是擴展現有範式。首先,該領域必須優先考慮因果與反事實推理,超越相關性。正如Judea Pearl的研究所論證的,理解「如果」和「為何」是穩健智慧的基石。其次,我們需要轉向神經符號整合。純粹的神經方法資料需求量大且不透明;純粹的符號系統則脆弱。混合模型利用神經網路進行感知和模式匹配,同時結合符號引擎進行邏輯推導,提供了一條有前景(儘管計算上具有挑戰性)的道路。像麻省理工學院CSAIL這樣的機構正在此領域取得進展。最後,評估必須進化。我們需要能夠壓力測試推理鏈、要求合理性證明並懲罰矛盾的基準測試,從單輪任務轉向多步驟對話敘事,以暴露邏輯不一致性。對話式人工智慧的未來不僅僅是更好的聊天;它是關於建造與我們共享世界理解的機器,這個目標仍然遙不可及,但得益於此類綜述,現在定義得更清晰了。