2.1 對話連貫性與顯著性
在多輪對話中保持邏輯一致且主題相關。若缺乏常識,模型會產生語法正確但語義荒謬或不相關的回應。
本綜述論文探討將常識推理整合至現代對話式人工智慧系統的關鍵挑戰。儘管大型預訓練語言模型(例如 BERT、GPT、T5)在理解語法和上下文方面取得了顯著成功,但它們根本上缺乏人類視為理所當然的隱含世界知識。本文認為,此一差距是阻礙人工智慧進行真正自然、連貫且智慧對話的主要瓶頸。作者喬治亞理工學院的 Christopher Richardson 和 Larry Heck 將其工作定位為對當前格局——方法、資料集和評估——的必要描繪,以引導這個新興但至關重要領域的未來研究。
本文闡述了常識缺失最為明顯的特定對話任務。
在多輪對話中保持邏輯一致且主題相關。若缺乏常識,模型會產生語法正確但語義荒謬或不相關的回應。
回答需要未言明假設的問題或完成指令。例如,理解「燒開水壺」意味著後續步驟是「倒水」,即使沒有明確說明。
理解幽默、諷刺、同理心和社會規範。這需要對人類心理和社會慣例的深度模型,而當前模型主要透過統計推斷而非真正理解。
本綜述對文獻中探索的主要技術方法進行了分類。
在富含常識知識的資料集(例如 ATOMIC、SocialIQA)上進一步訓練大型語言模型。此方法旨在將常識隱式地融入模型的參數中。
將模型明確連接到結構化知識庫,如 ConceptNet 或 ATOMIC。模型在推理過程中檢索或基於這些圖譜進行推理。一個關鍵範例是 COMET(Bosselut 等人,2019),這是一個訓練用於從這些圖譜生成新知識元組的 Transformer 模型。
訓練模型不僅生成答案,還生成自然語言的推理軌跡或解釋。這迫使模型闡明隱含步驟,從而可能提高穩健性。
除了標準準確率外,該領域還使用以下指標:
作者對領先的開放對話模型 BlenderBot 3 和 LaMDA 提出了關鍵的實務分析。他們的觀察結果令人震驚:儘管這些模型規模龐大且複雜,但它們經常在簡單的常識任務上失敗。例子包括在對話中生成矛盾的陳述,或無法理解基本的物理限制。這些實證證據有力地支持了本文的中心論點:基準測試的表現並不等同於在開放式互動中具備穩健、可用的常識。
核心見解:對話式人工智慧領域正遭受嚴重的「常識債務」。我們在不穩固的隱含基礎上建造了摩天大樓(大型語言模型)。本綜述正確地指出,核心問題不在於缺乏技術,而在於現代自然語言處理的統計、模式匹配本質與人類常識的符號化、因果性和類比性本質之間的根本不匹配。正如 Chollet(2019)在開創性著作《論智慧的衡量》中指出的,真正的智慧需要在陌生情境中習得技能並進行泛化——若沒有豐富的世界模型,這是不可能實現的。
邏輯流程:本文結構邏輯清晰且具說服力。它從定義問題及其表現形式(第1-2節),到列舉嘗試過的工程解決方案(第3節),再到檢視我們如何衡量進展(第4節),最後提供具體證據表明當前解決方案不足(第5節)。此流程反映了科學方法:假設(缺乏常識)、實驗(各種整合方法)、測量(基準測試)和結論(尚未解決)。
優點與缺陷:本文最大的優點是對頂尖模型進行了具體、批判性的評估。它超越了學術抽象,展示了真實的失敗模式。其主要的缺陷(綜述類文章常見)在於其描述性而非規範性的本質。它描繪了領域版圖,但對哪些路徑最有前景提供的指導有限。它淡化了純基於 Transformer 的模型在因果推理方面的架構限制,而這一點在麻省理工學院 CSAIL 等機構關於神經符號整合的研究中被重點強調。
可行見解:對於從業者和研究人員而言,結論很明確:不要再將常識僅僅視為另一個用於微調的資料集。該領域需要範式轉移。1) 投資神經符號架構:將神經網路與明確、可操作的知識表示相結合的混合模型(例如可微分歸納邏輯程式設計相關工作)是必要的方向。2) 開發更好的模擬環境:就像 OpenAI 為強化學習開發的 Gym,我們需要豐富、互動式的模擬器(靈感來自 AllenAI 的 THOR 等平台),讓智慧體可以透過具身經驗和後果學習常識,而不僅僅是文本。3) 重新思考評估方式:從靜態的問答基準測試轉向動態、互動式的評估,模型必須在長時間內展現一致的世界理解,類似於 ARC(抽象與推理語料庫)挑戰背後的原則。
知識圖譜基礎方法通常涉及檢索增強生成框架。形式上,給定對話上下文 $C$,模型從知識圖譜 $\mathcal{G}$ 中檢索一組相關的常識知識元組 $K = \{(h_i, r_i, t_i)\}$,其中 $h$ 是頭實體,$r$ 是關係,$t$ 是尾實體。最終回應 $R$ 是基於 $C$ 和 $K$ 生成的:
$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$
像 COMET 這樣的模型透過微調一個 Transformer(例如 GPT-2)來實現這一點,給定 $(h, r)$ 預測尾實體 $t$,有效地學習在潛在空間中遍歷圖譜:$t = \text{COMET}(h, r)$。
雖然 PDF 預覽不包含明確的圖表,但描述的初步觀察暗示著顯著的效能差距。我們可以構想一個假設的長條圖,比較人類與 BlenderBot3 和 LaMDA 在一系列常識對話任務(例如連貫性、物理推理、社交推理)上的表現。Y 軸代表分數(0-100)。圖表將顯示:
情境:評估對話智慧體對簡單敘事的理解。
對話上下文:使用者:「我剛養了一隻新的小狗!牠精力真旺盛。我開門時把牠和我的最愛鞋子留在客廳了。」
智慧體回應 A(缺乏常識):「真好。你的鞋子是什麼顏色?」
智慧體回應 B(具備常識):「噢不,你可能得去看看那些鞋子!小狗很愛啃咬東西。」
框架分析:
解決常識推理將開啟變革性的應用: