2.1 對話理解
模型必須推斷未言明嘅意圖、解決歧義同理解隱含嘅上下文。例如,理解「我跑去商店」暗示咗一種交通方式同購買意圖,而不僅僅係身體移動。
本綜述論文探討將常識推理整合到尖端對話式人工智能系統嘅關鍵挑戰。雖然基於Transformer嘅模型(例如BERT、GPT同T5)喺理解語言語法同上下文語義方面取得顯著成功,但佢哋仍然難以處理需要常識知識嘅任務——即係人類通常視為理所當然嘅世界知識。本文認為,呢個差距嚴重阻礙咗真正自然同連貫嘅對話系統嘅發展。
常識對於機器智能嘅重要性早已得到認可,但將呢啲知識編碼同整合嘅通用方案仍然難以捉摸。本綜述聚焦於常識推理同對話式AI嘅交叉領域,回顧相關數據集、方法論同評估基準。
常識推理喺對話式AI嘅各個方面都至關重要。本文指出咗幾個其缺失最為明顯嘅關鍵問題領域。
模型必須推斷未言明嘅意圖、解決歧義同理解隱含嘅上下文。例如,理解「我跑去商店」暗示咗一種交通方式同購買意圖,而不僅僅係身體移動。
生成連貫、相關且符合社交禮儀嘅回應,需要具備社會規範、物理定律同典型人類行為嘅知識。缺乏常識嘅模型可能會生成物理上不可能或社交上尷尬嘅回覆。
協助用戶完成任務(例如,預訂旅行、故障排除)需要對行動序列、因果關係以及世界中物體嘅屬性進行推理。
本綜述將主要方法分為三種主要策略,用於將常識整合到對話式AI模型中。
呢種方法涉及喺專門為常識推理任務策劃嘅數據集上,對大型預訓練語言模型進行進一步訓練(微調)。使用SocialIQA、CommonsenseQA同PIQA等數據集,令模型適應對社交互動、概念屬性同物理直覺進行推理。
呢種方法明確地整合結構化嘅外部知識源。本文強調咗兩個著名嘅知識圖譜:
模型被設計為喺對話處理過程中檢索並基於呢啲KG中嘅信息進行推理。COMET模型(一個基於ConceptNet同ATOMIC訓練嘅Transformer神經網絡)被引用為一個能夠生成新常識推論嘅關鍵例子。
一種新興方法涉及訓練模型,不僅要產生答案,仲要生成一個使用常識來證明答案合理性嘅自然語言解釋。呢個目標係令模型嘅推理過程更加透明,並可能更加穩健。
評估對話中嘅常識推理非常複雜。本文討論咗幾個基準:
常見嘅自動指標包括多項選擇題嘅準確率、用於回應質量嘅BLEU/ROUGE,以及為衡量事實一致性或推理合理性而設計嘅新穎指標。
本文對兩個領先嘅開放對話模型進行初步分析:BlenderBot 3同LaMDA。儘管佢哋能力先進,但兩個模型都喺常識推理方面表現出明顯嘅失敗。例子包括:
呢啲觀察強烈推動咗呢個領域需要重點研究,因為呢啲失敗直接削弱用戶信任同互動嘅自然感。
即使係最先進嘅對話模型(BlenderBot3、LaMDA)都顯示出常識方面嘅關鍵差距,突顯咗呢個係一個基本前沿,而非邊緣挑戰。
知識圖譜嘅整合通常涉及一個檢索增強生成框架。給定一個對話上下文 $C$ 同一個知識圖譜 $\mathcal{K}$,模型嘅目標可以表述為生成一個回應 $R$,以最大化:
$P(R | C, \mathcal{K}) = \sum_{k \in \mathcal{K}_C} P(k | C) \cdot P(R | C, k)$
其中 $\mathcal{K}_C$ 係基於上下文 $C$ 從 $\mathcal{K}$ 檢索到嘅相關知識三元組子集。項 $P(k | C)$ 表示檢索模型選擇知識三元組 $k$ 嘅概率,而 $P(R | C, k)$ 係給定上下文同選定知識下回應嘅概率。像COMET咁樣嘅模型通過喺格式化為 $(head, relation, tail)$ 嘅知識圖譜三元組上微調一個Transformer(例如GPT-2)來實現呢一點,使其能夠為新嘅 $(head, relation)$ 查詢生成合理嘅 $tail$ 補全。
場景:評估聊天機械人對簡單敘事嘅理解。
用戶輸入:「我斟咗杯橙汁畀自己,但跟住電話響咗。當我返嚟嗰陣,個杯已經空咗。」
分析框架:
呢個框架突顯咗所需嘅多步驟推理,從檢索到推論再到上下文整合。
具備常識意識嘅對話式AI嘅前進道路涉及幾個關鍵方向:
核心見解:Richardson同Heck嘅綜述揭示咗現代AI中一個基本但經常被低估嘅事實:我哋最先進嘅語言模型係喺語義真空中運作嘅出色模式匹配器。佢哋掌握咗語言嘅「如何」,但缺乏「為何」——即係賦予意義嘅基礎世界模型。呢個唔係一個小技術缺陷;而係一個限制AI喺現實世界應用中效用同可信度嘅架構缺陷。正如作者指出,即使係旗艦模型如LaMDA同BlenderBot3,喺簡單嘅人類推理任務上都會失敗,呢個差距呼應咗其他AI領域觀察到嘅限制,例如電腦視覺模型儘管感知能力出色但缺乏物理理解。
邏輯流程、優點與缺陷:本文嘅優點在於其清晰嘅分類法——將方法分為微調、KG基礎同解釋。呢個框架有效地分割咗混亂嘅研究領域。對ConceptNet同ATOMIC等知識圖譜嘅強調係恰當嘅;佢哋代表咗將常識閃電裝入瓶中嘅最具體嘗試。然而,綜述亦無意中突顯咗該領域嘅核心弱點:依賴脆弱、靜態且必然不完整嘅知識庫。ConceptNet雖然有價值,但係共識現實嘅快照,缺乏現實世界知識嘅動態、上下文相關且經常矛盾嘅性質。COMET模型生成知識嘅方法係一個聰明嘅解決方案,但佢有風險產生聽似合理但錯誤嘅「事實」,用一個問題換取另一個問題。關於基準測試嘅討論進一步揭示咗一個元問題:我哋缺乏評估推理深度嘅穩健自動指標,經常依賴多項選擇題準確率或淺層相似度分數,呢啲都係對真正理解嘅拙劣替代品。
可行見解:前進嘅道路不僅僅係擴展現有範式。首先,該領域必須優先考慮因果同反事實推理,超越相關性。正如Judea Pearl嘅研究所指出,理解「如果」同「為何」係穩健智能嘅基石。其次,我哋需要轉向神經符號整合。純神經方法數據飢渴且不透明;純符號系統脆弱。混合模型利用神經網絡進行感知同模式匹配,同時使用符號引擎進行邏輯推導,提供咗一條有前途(儘管計算上具有挑戰性)嘅道路。像MIT CSAIL咁樣嘅機構正喺度呢方面取得進展。最後,評估必須進化。我哋需要能夠壓力測試推理鏈、要求合理性證明同懲罰矛盾嘅基準測試,超越單輪任務,轉向多步驟對話敘事,以暴露邏輯不一致。對話式AI嘅未來不僅僅係更好嘅聊天;而係建立與我哋共享世界理解嘅機器,呢個目標仍然遙不可及,但多虧咗呢類綜述,而家定義得更加清晰。