社交AI代理中的自我解釋：一種混合知識生成式AI方法

1. 簡介與概述

本文探討了部署社交AI代理時面臨的一項關鍵挑戰，特別是在線上教育等敏感領域。作者聚焦於SAMI（社交代理中介互動），這是一款旨在促進大規模線上課程中學習者之間社交連結的AI助理。雖然此類代理可以緩解文獻中已充分記載的「低社交臨場感」問題，但它們也帶來了一個新問題：不透明性。與SAMI互動的學生自然會質疑它如何以及為何做出特定建議（例如，連結兩位學習者）。核心研究問題是：AI社交助理如何能提供透明、易於理解的解釋，說明其內部推理過程，以建立使用者信任？

提出的解決方案是一種新穎的自我解釋技術。這被構建為一個自然語言問答過程，代理在此過程中對其自身目標、知識和方法的結構化自我模型進行內省。關鍵創新在於一種混合架構，它結合了知識型AI的結構化、可解釋表徵，以及生成式AI（具體指ChatGPT）的靈活自然語言生成能力。

2. 核心方法論與架構

自我解釋流程是一個多階段過程，旨在將代理的內部邏輯轉化為使用者友善的敘述。

2.1. 自我模型：任務、方法、知識（TMK）框架

自我解釋的基礎是一個可計算的自我模型。作者採用了TMK框架，將代理的功能分解為：

任務（T）： 高層次目標（例如，「提升社交連結度」）。
方法（M）： 達成任務的程序或演算法（例如，「尋找有共同興趣的學習者」）。
知識（K）： 方法所使用的資料或信念（例如，「學習者A的興趣：機器學習」）。

一個關鍵的調整是將TMK元素表示為簡短的自然語言描述，而非形式化的邏輯命題。這彌合了代理的符號結構與生成模型的語言空間之間的差距。

2.2. 混合式解釋生成：結合知識型AI與生成式AI

解釋生成過程包含五個關鍵步驟：

輸入： 使用者提出自然語言問題（例如，「你為什麼把我跟Alex連結起來？」）。
檢索： 在問題與TMK自我模型中的英文描述之間執行相似性搜尋，以識別最相關的自我知識片段。
內省： 運用思維鏈（CoT）過程來「逐步推演」TMK模型的相關部分，重建代理所採取的邏輯步驟。
生成： 將結構化的CoT輸出和檢索到的知識片段格式化為大型語言模型（ChatGPT）的提示詞。
輸出： ChatGPT生成一個連貫的自然語言解釋，回傳給使用者。

這種混合方法利用了知識型自我模型的精確性和可驗證性來為解釋提供依據，同時利用生成式AI來實現最終敘述的流暢性和適應性。

3. 技術實作與細節

3.1. 相似性搜尋的數學公式

檢索步驟對效率至關重要。給定一個使用者查詢 $q$ 和一組 $N$ 個TMK描述向量 $\{d_1, d_2, ..., d_N\}$（例如，來自像Sentence-BERT這樣的句子嵌入模型），系統會檢索前 $k$ 個最相關的描述。相關性分數通常使用餘弦相似度計算：

$\text{similarity}(q, d_i) = \frac{q \cdot d_i}{\|q\| \|d_i\|}$

其中 $q$ 和 $d_i$ 是共享語意空間中的向量表示。相似度分數最高的前 $k$ 個描述會被傳遞到下一階段。這確保了解釋聚焦於與查詢相關的代理推理，而非其整個模型。

3.2. 用於內省的思維鏈提示

CoT過程將檢索到的TMK片段轉化為結構化的推理軌跡。對於檢索到的任務 $T_1$、方法 $M_1$ 和知識項目 $K_1, K_2$，CoT提示詞可以設計為：

"代理的目標（任務）是：[T_1 描述]。
為了達成此目標，它使用了方法：[M_1 描述]。
此方法需要知道：[K_1 描述] 和 [K_2 描述]。
因此，代理的決策是基於..."

然後，將此結構化軌跡連同類似以下的指令輸入ChatGPT：「根據以下結構化的推理步驟，為學生生成一個清晰、簡潔的解釋。」

4. 實驗評估與結果

4.1. 評估指標：完整性與正確性

作者從兩個主要維度評估自我解釋：

完整性： 解釋是否涵蓋了代理決策過程中所有相關的步驟（如TMK模型所定義）？這通過將解釋內容映射回TMK元素來評估。
正確性： 解釋是否準確反映了代理的實際過程，沒有引入幻覺或矛盾？這需要專家根據代理的程式碼/日誌進行驗證。

關鍵評估洞見

混合方法在正確性上表現出高分，因為生成模型受到檢索到的TMK資料的嚴格約束。完整性則變化較大，取決於相似性搜尋的品質以及CoT的提示詞工程。

4.2. 實際課堂部署結果

該系統在一個實際的線上課程中部署。雖然提供的摘要中未詳細說明具體的量化結果，但論文報告了此項部署，表明其重點在於定性或初步的現實世界驗證。部署本身即是一項重要成果，展示了該方法在動態教育環境中的實際可行性。未來的工作將受益於A/B測試，測量接收解釋的組別與未接收解釋的組別之間的信任指標（例如，使用者對感知透明度、可靠性的調查）。

假設圖表描述： 一個長條圖比較「解釋品質」分數（完整性和正確性，1-5分制），對比混合TMK+ChatGPT方法與僅使用ChatGPT和使用者查詢的基準方法。混合方法在正確性上會顯示出顯著更高的長條，展示了自我模型的基礎作用。

5. 分析框架與範例案例

情境： SAMI將學生Bob（興趣：「爵士樂」和「Python程式設計」）與學生Alice（興趣：「藍調音樂」和「資料科學」）連結起來。

使用者查詢： 「為什麼把我跟Alice連結？」

內部TMK自我模型片段（已檢索）：

T1： 「基於個人檔案相似性促進社交連結。」
M1： 「使用Jaccard相似度計算興趣標籤的重疊度。」
K1（Bob）： 「興趣：爵士樂，Python程式設計。」
K2（Alice）： 「興趣：藍調音樂，資料科學。」
K3（計算）： 「共享標籤：'音樂'（來自爵士/藍調）和'程式設計'（來自Python/資料科學）。相似度分數：0.4。」

給ChatGPT的思維鏈提示詞：
「代理的任務是基於個人檔案相似性促進連結。其方法是計算興趣重疊度。對於您（Bob），它知道您的興趣是：爵士樂，Python程式設計。對於Alice，它知道她的興趣是：藍調音樂，資料科學。它根據重疊類別（音樂、程式設計）計算了一個相似度分數。分數為0.4，達到了建議連結的閾值。因此...」

最終生成的解釋：
「我將您與Alice連結起來，是因為我們的系統識別出你們有共同的興趣，這可能是開啟對話的良好基礎。你們兩人都對音樂（爵士/藍調）和與程式設計相關的技術主題（Python/資料科學）感興趣。基於這種重疊性，我認為你們可能有共同話題可以開始討論。」

6. 批判性分析與專家見解

核心洞見： 這篇論文不僅僅是關於讓AI可解釋；它是一份在社交嵌入式代理中工程化信任的策略藍圖。作者正確地指出，在教育等領域，代理的影響力並非來自原始的任務表現，而是來自其作為可信賴社交參與者的角色。他們的混合方法——使用符號自我模型作為「真相來源」，以限制生成式AI傾向於虛構的毛病——在當前LLM時代是一種務實且必要的技巧。它直接回應了像Cynthia Rudin這樣的研究者的主張：我們需要本質上可解釋的模型，而非事後解釋。在這裡，TMK模型提供了這種內在結構。

邏輯流程與貢獻： 邏輯令人信服：1) 社交代理需要信任，2) 信任需要透明度，3) 透明度需要自我解釋，4) 可靠的自我解釋需要一個有依據的自我模型，5) 可用的解釋需要自然語言，6) 因此，將有依據的模型（TMK）與語言生成器（LLM）結合。關鍵貢獻在於具體實現此流程的架構，特別是使用基於自然語言化的TMK描述的相似性搜尋作為檢索機制。這比硬編碼的規則觸發器更為優雅。

優勢與缺陷： 主要優勢在於其實用的混合設計，避免了純深度學習的不透明性和純符號系統的脆弱性。這是檢索增強生成（RAG）原則的巧妙應用，但應用於自我知識而非外部文件——這是一個具有發展潛力的概念。然而，缺陷也很顯著。首先，自我模型是靜態且手工製作的。它不會從互動中學習或更新，這造成了維護負擔以及與實際代理程式碼產生偏差的風險。其次，評估不夠充分。關於使用者信任、理解或行為改變的硬數據在哪裡？沒有這些，它只是一個工程概念驗證，而非經過驗證的信任建立工具。第三，它假設TMK模型完美代表了代理的「真實」推理，這對於複雜、自適應的代理可能不成立。

可操作的見解： 對於實務工作者，結論很明確：從第一天起就開始設計具有可查詢自我模型的AI系統架構。 本文提供了一個可行的範本。下一步是自動化此自我模型的創建和更新，或許可以使用神經符號AI或機制可解釋性中的技術。對於研究者，挑戰在於超越靜態自我模型，邁向動態、可學習的自我表徵。代理能否從其經驗和程式碼中學習自身的TMK結構？此外，該領域必須開發標準化的基準來評估解釋的社會認知影響，而不僅僅是其技術完整性。像生成的這樣的解釋，是否真的增加了學習者與AI建議的同儕互動的意願？這才是最終重要的指標。

7. 未來應用與研究方向

自動化自我模型學習： 整合來自程式合成或基於LLM的程式碼分析的技術，從代理的原始碼和運行時日誌自動生成和更新TMK自我模型，減少人工工程。
可解釋的多代理系統： 將框架擴展到解釋代理集體或群體的行為，其中解釋可能涉及協調協議和湧現行為。
個人化解釋風格： 調整生成元件，根據個別使用者檔案（例如，新手 vs. 專家，懷疑 vs. 信任）來客製化解釋的複雜度、語氣和焦點。
主動式與對比式解釋： 超越被動的問答，讓代理主動為意外行為提供解釋，或提供對比式解釋（「我將您與Alice連結而非Charlie，是因為...」）。
高風險領域的應用： 在醫療保健AI（解釋治療建議）、金融科技（解釋貸款拒絕）或自主系統（解釋導航決策）中部署類似的自我解釋架構，這些領域的透明度是法律或倫理上的要求。
信任校準研究： 進行縱向研究，測量長期接觸此類解釋如何影響使用者信任、依賴度以及系統在實現其社交目標方面的整體效能。

8. 參考文獻

Goel, A. K., & Joyner, D. A. (2017). Using AI to teach AI: Lessons from an online AI class. AI Magazine.
Rudin, C. (2019). Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nature Machine Intelligence.
Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Advances in Neural Information Processing Systems.
Muller, M., et al. (2019). Principles for Explainable AI. Communications of the ACM.
Confalonieri, R., et al. (2021). A historical perspective of explainable AI. WIREs Data Mining and Knowledge Discovery.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems. （作為一個基礎性但通常不透明的AI技術範例，該技術需要事後解釋方法）。
Georgia Institute of Technology, Interactive Computing - Design & Intelligence Lab. (https://dilab.gatech.edu/) – 提供產生此項工作的研究環境背景。
OpenAI. (2023). ChatGPT. (https://openai.com/chatgpt) – 論文中引用的生成式AI元件。