2.1 對話連貫性與顯著性
喺多輪對話中保持邏輯一致同主題相關。冇咗常識,模型會生成語法正確但語義上荒謬或不相關嘅回應。
呢份綜述論文探討咗將常識推理整合到現代對話式AI系統嘅關鍵挑戰。雖然大型預訓練語言模型(例如BERT、GPT、T5)喺理解語法同上下文方面取得咗顯著成功,但佢哋根本上缺乏人類視為理所當然嘅隱含世界知識。論文認為,呢個差距係阻礙AI進行真正自然、連貫同智能對話嘅主要瓶頸。作者,來自佐治亞理工學院嘅Christopher Richardson同Larry Heck,將佢哋嘅工作定位為對當前格局——方法、數據集同評估——嘅必要梳理,以指導呢個新興但至關重要領域嘅未來研究。
論文闡述咗常識缺失最為明顯嘅特定對話任務。
喺多輪對話中保持邏輯一致同主題相關。冇咗常識,模型會生成語法正確但語義上荒謬或不相關嘅回應。
回答需要未言明假設嘅問題或完成指令。例如,理解「煲滾個水壺」意味著後續步驟係「倒水」,即使冇明確講出嚟。
理解幽默、諷刺、同理心同社交規範。呢個需要一個深刻嘅人類心理同社會慣例模型,而目前嘅模型主要係通過統計推斷而非真正理解。
綜述對文獻中探索嘅主要技術方法進行咗分類。
喺富含常識知識嘅數據集(例如ATOMIC、SocialIQA)上進一步訓練大型語言模型。呢種方法旨在將常識隱式地融入模型嘅參數中。
明確將模型連接到結構化知識庫,例如ConceptNet或ATOMIC。模型喺推理過程中檢索或基於呢啲圖譜進行推理。一個關鍵例子係COMET(Bosselut等人,2019),一個訓練用於從呢啲圖譜生成新知識三元組嘅Transformer模型。
訓練模型不僅生成答案,仲生成自然語言嘅推理軌跡或解釋。呢個迫使模型闡明隱含步驟,有可能提高穩健性。
除咗標準準確率,呢個領域仲使用以下指標:
作者對領先嘅開放對話模型BlenderBot 3同LaMDA提出咗關鍵嘅實證分析。佢哋嘅觀察結果係毀滅性嘅:儘管呢啲模型規模龐大同複雜,但佢哋經常喺簡單嘅常識任務上失敗。例子包括喺對話中生成矛盾陳述,或者無法理解基本物理限制。呢啲實證證據有力地支持咗論文嘅中心論點:基準測試表現並不等同於開放式互動中穩健、可用嘅常識。
核心見解:對話式AI領域正遭受嚴重嘅「常識債務」。我哋喺搖搖欲墜嘅隱含基礎上建造咗摩天大廈(巨型LLM)。綜述正確指出,核心問題唔係缺乏技術,而係現代NLP嘅統計、模式匹配性質同人類常識嘅符號、因果同類比性質之間嘅根本性不匹配。正如Chollet(2019)嘅開創性著作《On the Measure of Intelligence》中指出,真正嘅智能需要喺新情境中獲取技能同泛化——冇一個豐富嘅世界模型係不可能實現嘅壯舉。
邏輯流程:論文嘅結構合乎邏輯且具說服力。佢從定義問題及其表現形式(第1-2節),到列舉嘗試過嘅工程解決方案(第3節),再到檢視我哋點樣衡量進展(第4節),最後提供具體證據表明當前解決方案不足(第5節)。呢個流程反映咗科學方法:假設(缺少常識)、實驗(各種整合方法)、測量(基準測試)、結論(未解決)。
優點與缺陷:論文最大嘅優點係對SOTA模型進行具體、批判性嘅評估。佢超越學術抽象,展示真實嘅失敗模式。佢嘅主要缺陷(綜述文章常見)係描述性而非規範性。佢描繪咗領域版圖,但對邊條路徑最有前途提供有限指引。佢低估咗純基於Transformer嘅模型喺因果推理方面嘅架構限制,呢一點喺MIT CSAIL等機構關於神經符號整合嘅研究中被重點強調。
可行見解:對於從業者同研究人員,結論好清晰:唔好再將常識視為另一個用嚟微調嘅數據集。呢個領域需要範式轉變。1)投資神經符號架構:將神經網絡同明確、可操作嘅知識表示結合嘅混合模型(例如可微分歸納邏輯編程方面嘅工作)係一個必要方向。2)開發更好嘅模擬環境:好似OpenAI嘅Gym用於強化學習一樣,我哋需要豐富、互動嘅模擬器(受AllenAI嘅THOR等平台啟發),智能體可以通過具身經驗同後果學習常識,而不僅僅係文本。3)重新思考評估:從靜態QA基準測試轉向動態、互動式評估,模型必須隨時間展示一致嘅世界理解,類似於ARC(抽象與推理語料庫)挑戰背後嘅原則。
知識圖譜基礎方法通常涉及檢索增強生成框架。形式上,給定對話上下文 $C$,模型從知識圖譜 $\mathcal{G}$ 中檢索一組相關常識知識三元組 $K = \{(h_i, r_i, t_i)\}$,其中 $h$ 係頭實體,$r$ 係關係,$t$ 係尾實體。最終回應 $R$ 通過以 $C$ 同 $K$ 為條件生成:
$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$
像COMET咁樣嘅模型通過微調一個Transformer(例如GPT-2)來預測給定 $(h, r)$ 嘅尾實體 $t$ 來實現呢一點,有效地學習喺潛在空間中遍歷圖譜:$t = \text{COMET}(h, r)$。
雖然PDF預覽冇包含明確圖表,但描述嘅初步觀察意味著顯著嘅性能差距。我哋可以構思一個假想嘅柱狀圖,比較人類表現與BlenderBot3同LaMDA喺一系列常識對話任務上(例如,連貫性、物理推理、社交推理)。Y軸將代表分數(0-100)。圖表將顯示:
場景:評估對話智能體對簡單敘事嘅理解。
對話上下文:用戶:「我啱啱養咗隻新狗仔!佢好有活力。我開門應門嗰陣將佢留咗喺客廳,同我最鍾意對鞋一齊。」
智能體回應A(缺乏常識):「幾好喎。你對鞋係咩顏色?」
智能體回應B(具備常識):「唔係嘛,你可能要睇實對鞋!狗仔好鍾意咬嘢㗎。」
框架分析:
解決常識推理將解鎖變革性應用: