1. 簡介

呢份綜述論文探討咗將常識推理整合到現代對話式AI系統嘅關鍵挑戰。雖然大型預訓練語言模型(例如BERT、GPT、T5)喺理解語法同上下文方面取得咗顯著成功,但佢哋根本上缺乏人類視為理所當然嘅隱含世界知識。論文認為,呢個差距係阻礙AI進行真正自然、連貫同智能對話嘅主要瓶頸。作者,來自佐治亞理工學院嘅Christopher Richardson同Larry Heck,將佢哋嘅工作定位為對當前格局——方法、數據集同評估——嘅必要梳理,以指導呢個新興但至關重要領域嘅未來研究。

2. 對話式AI問題中嘅常識推理

論文闡述咗常識缺失最為明顯嘅特定對話任務。

2.1 對話連貫性與顯著性

喺多輪對話中保持邏輯一致同主題相關。冇咗常識,模型會生成語法正確但語義上荒謬或不相關嘅回應。

2.2 問答與任務完成

回答需要未言明假設嘅問題或完成指令。例如,理解「煲滾個水壺」意味著後續步驟係「倒水」,即使冇明確講出嚟。

2.3 閒聊與社交互動

理解幽默、諷刺、同理心同社交規範。呢個需要一個深刻嘅人類心理同社會慣例模型,而目前嘅模型主要係通過統計推斷而非真正理解。

3. 整合常識嘅方法

綜述對文獻中探索嘅主要技術方法進行咗分類。

3.1 模型微調

喺富含常識知識嘅數據集(例如ATOMIC、SocialIQA)上進一步訓練大型語言模型。呢種方法旨在將常識隱式地融入模型嘅參數中。

3.2 知識圖譜基礎

明確將模型連接到結構化知識庫,例如ConceptNet或ATOMIC。模型喺推理過程中檢索或基於呢啲圖譜進行推理。一個關鍵例子係COMET(Bosselut等人,2019),一個訓練用於從呢啲圖譜生成新知識三元組嘅Transformer模型。

3.3 自然語言解釋

訓練模型不僅生成答案,仲生成自然語言嘅推理軌跡或解釋。呢個迫使模型闡明隱含步驟,有可能提高穩健性。

4. 基準測試與評估指標

4.1 常用數據集

  • CommonsenseQA:需要常識嘅多項選擇問答。
  • SocialIQA:專注於社交同情感常識。
  • PIQA:用於遵循指令嘅物理常識。
  • DialogRE:對對話內關係進行推理。

4.2 評估指標

除咗標準準確率,呢個領域仲使用以下指標:

  • 人工評估:針對連貫性、趣味性同合理性。
  • 知識-F1:衡量與真實知識事實嘅重疊程度。
  • 推理鏈正確性:評估生成解釋嘅邏輯嚴謹性。

5. 對尖端模型嘅初步觀察

作者對領先嘅開放對話模型BlenderBot 3同LaMDA提出咗關鍵嘅實證分析。佢哋嘅觀察結果係毀滅性嘅:儘管呢啲模型規模龐大同複雜,但佢哋經常喺簡單嘅常識任務上失敗。例子包括喺對話中生成矛盾陳述,或者無法理解基本物理限制。呢啲實證證據有力地支持咗論文嘅中心論點:基準測試表現並不等同於開放式互動中穩健、可用嘅常識。

6. 核心見解與分析

核心見解:對話式AI領域正遭受嚴重嘅「常識債務」。我哋喺搖搖欲墜嘅隱含基礎上建造咗摩天大廈(巨型LLM)。綜述正確指出,核心問題唔係缺乏技術,而係現代NLP嘅統計、模式匹配性質同人類常識嘅符號、因果同類比性質之間嘅根本性不匹配。正如Chollet(2019)嘅開創性著作《On the Measure of Intelligence》中指出,真正嘅智能需要喺新情境中獲取技能同泛化——冇一個豐富嘅世界模型係不可能實現嘅壯舉。

邏輯流程:論文嘅結構合乎邏輯且具說服力。佢從定義問題及其表現形式(第1-2節),到列舉嘗試過嘅工程解決方案(第3節),再到檢視我哋點樣衡量進展(第4節),最後提供具體證據表明當前解決方案不足(第5節)。呢個流程反映咗科學方法:假設(缺少常識)、實驗(各種整合方法)、測量(基準測試)、結論(未解決)。

優點與缺陷:論文最大嘅優點係對SOTA模型進行具體、批判性嘅評估。佢超越學術抽象,展示真實嘅失敗模式。佢嘅主要缺陷(綜述文章常見)係描述性而非規範性。佢描繪咗領域版圖,但對邊條路徑最有前途提供有限指引。佢低估咗純基於Transformer嘅模型喺因果推理方面嘅架構限制,呢一點喺MIT CSAIL等機構關於神經符號整合嘅研究中被重點強調。

可行見解:對於從業者同研究人員,結論好清晰:唔好再將常識視為另一個用嚟微調嘅數據集。呢個領域需要範式轉變。1)投資神經符號架構:將神經網絡同明確、可操作嘅知識表示結合嘅混合模型(例如可微分歸納邏輯編程方面嘅工作)係一個必要方向。2)開發更好嘅模擬環境:好似OpenAI嘅Gym用於強化學習一樣,我哋需要豐富、互動嘅模擬器(受AllenAI嘅THOR等平台啟發),智能體可以通過具身經驗同後果學習常識,而不僅僅係文本。3)重新思考評估:從靜態QA基準測試轉向動態、互動式評估,模型必須隨時間展示一致嘅世界理解,類似於ARC(抽象與推理語料庫)挑戰背後嘅原則。

7. 技術細節

知識圖譜基礎方法通常涉及檢索增強生成框架。形式上,給定對話上下文 $C$,模型從知識圖譜 $\mathcal{G}$ 中檢索一組相關常識知識三元組 $K = \{(h_i, r_i, t_i)\}$,其中 $h$ 係頭實體,$r$ 係關係,$t$ 係尾實體。最終回應 $R$ 通過以 $C$ 同 $K$ 為條件生成:

$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$

像COMET咁樣嘅模型通過微調一個Transformer(例如GPT-2)來預測給定 $(h, r)$ 嘅尾實體 $t$ 來實現呢一點,有效地學習喺潛在空間中遍歷圖譜:$t = \text{COMET}(h, r)$。

8. 實驗結果與圖表描述

雖然PDF預覽冇包含明確圖表,但描述嘅初步觀察意味著顯著嘅性能差距。我哋可以構思一個假想嘅柱狀圖,比較人類表現與BlenderBot3同LaMDA喺一系列常識對話任務上(例如,連貫性、物理推理、社交推理)。Y軸將代表分數(0-100)。圖表將顯示:

  • 人類表現:喺所有任務類別中持續保持高位(約90-95)。
  • SOTA模型(BlenderBot3/LaMDA):顯示高方差嘅柱狀——可能喺連貫性上約80(佢哋可以模仿模式),但喺需要更深理解嘅物理同社交推理任務上急劇下降到約50-60。誤差棒會好大,表示不一致。
  • 關鍵要點:視覺上嘅差距,特別係喺物理同社交推理方面,將鮮明地說明論文關於根本性限制而非需要漸進式改進嘅主張。

9. 分析框架示例

場景:評估對話智能體對簡單敘事嘅理解。

對話上下文:用戶:「我啱啱養咗隻新狗仔!佢好有活力。我開門應門嗰陣將佢留咗喺客廳,同我最鍾意對鞋一齊。」

智能體回應A(缺乏常識):「幾好喎。你對鞋係咩顏色?」

智能體回應B(具備常識):「唔係嘛,你可能要睇實對鞋!狗仔好鍾意咬嘢㗎。」

框架分析:

  1. 知識檢索:模型有冇存取像(狗仔,能夠,咬)、(鞋,由...製成,皮革/布料)、(咬,導致,損壞)呢啲三元組?
  2. 因果推理:佢能否鏈接呢啲事實:新狗仔 + 有活力 + 無人看管 + 可咬物體 → 高損壞概率。
  3. 社交/語用推理:佢有冇推斷用戶未言明嘅擔憂(擔心對鞋)並生成相關、有同理心嘅警告?
回應A三樣都失敗。回應B展示咗成功應用呢個隱含框架。目前嘅SOTA模型會喺非微不足道嘅比例下生成回應A。

10. 未來應用與方向

解決常識推理將解鎖變革性應用:

  • 真正嘅個人AI助手:能夠主動管理複雜任務嘅智能體(「考慮我嘅日程、飲食目標同雪櫃已有嘅嘢,訂購一星期嘅雜貨」)。
  • 高級教育導師:通過模擬學生嘅心理狀態並生成蘇格拉底式解釋,能夠診斷學生誤解嘅系統。
  • 心理健康夥伴:通過理解社交同心理規範,能夠提供細膩情感支持同危機檢測嘅聊天機械人。
  • 虛擬世界中嘅自主智能體:遊戲或元宇宙中嘅NPC,具有可信嘅動機、長期目標同對環境嘅理解。
  • 研究方向:未來在於具身、多模態學習(從視頻、音頻同物理互動中學習)、允許反事實推理嘅因果世界模型,以及由像COMET咁樣嘅AI系統動態更新嘅大規模、精心策劃嘅常識知識圖譜

11. 參考文獻

  1. Richardson, C., & Heck, L. (2023). Commonsense Reasoning for Conversational AI: A Survey of the State of the Art. Workshop on Knowledge Augmented Methods for NLP, AAAI 2023.
  2. Bosselut, A., Rashkin, H., Sap, M., Malaviya, C., Celikyilmaz, A., & Choi, Y. (2019). COMET: Commonsense Transformers for Automatic Knowledge Graph Construction. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
  3. Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. Proceedings of the AAAI Conference on Artificial Intelligence.
  4. Sap, M., Le Bras, R., Allaway, E., Bhagavatula, C., Lourie, N., Rashkin, H., ... & Choi, Y. (2019). ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning. Proceedings of the AAAI Conference on Artificial Intelligence.
  5. Chollet, F. (2019). On the Measure of Intelligence. arXiv preprint arXiv:1911.01547.
  6. Storks, S., Gao, Q., & Chai, J. Y. (2019). Recent Advances in Natural Language Inference: A Survey of Benchmarks, Resources, and Approaches. arXiv preprint arXiv:1904.01172.
  7. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems.