1. 簡介
基於大型語言模型(LLMs)建構的對話式 AI 系統日益普及,使得安全性評估成為關鍵議題。傳統方法通常依賴於將內容簡單二分為「安全」與「不安全」的資料集,這種做法本質上過度簡化了安全性的主觀性與文化情境特性。由 Google Research、倫敦城市大學和劍橋大學的研究人員提出的 DICES(對話式 AI 安全性評估多樣性)資料集,旨在彌補此一缺口。它提供了一個資源,能夠捕捉人類對 AI 安全性觀點固有的變異性、模糊性和多樣性。
DICES 的設計基於三個核心原則:1) 包含評分者的細粒度人口統計資訊(例如,種族/族裔群體、年齡、性別);2) 每個對話項目具有高重複評分,以確保統計效力;3) 將評分者的投票編碼為跨人口統計群體的分佈,以便探索不同的聚合策略。這種設計超越了單一的「標準答案」,轉而將安全性視為一個多面向、依賴於群體感知的建構。
1.1. 主要貢獻
DICES 資料集及其相關研究的主要貢獻如下:
- 以評分者多樣性為核心特色: 將焦點從減輕「偏見」轉向擁抱並分析評分者意見的「多樣性」。
- 細粒度分析框架: 提供一個資料集結構,允許深入探索安全性認知如何與人口統計類別交織。
- 細緻評估的基準: 將 DICES 確立為一個共享資源,用於以尊重多元觀點的方式評估對話式 AI 系統,超越單一的安全分數。
2. 核心觀點與邏輯脈絡
核心觀點: 主流 AI 安全性評估的根本缺陷不在於缺乏數據,而在於缺乏具代表性且可拆解的數據。將安全性視為一個客觀、二元的分類任務是一種危險的過度簡化,它抹除了文化細微差別,並可能導致系統僅對主流人口群體而言是「安全」的。DICES 正確地指出,安全性是一種社會建構,其評估必須是統計性的,而非決定性的。
邏輯脈絡: 本文的論點極為清晰:1) 當前的 LLM 安全性微調依賴於簡化的資料集。2) 這種簡化忽略了主觀變異性,而對於安全性——一個社會情境化的概念——這尤其成問題。3) 因此,我們需要一類新的資料集,透過人口統計多樣性和高重複評分來明確捕捉這種變異性。4) DICES 提供了這一點,使得分析能夠揭示哪些群體認為哪些內容不安全,以及程度如何。這個脈絡邏輯性地拆解了通用安全標準的神話,並以一個理解安全性圖景的框架取而代之。
3. 優勢與不足
優勢:
- 典範轉移的設計: 從二元標籤轉向人口統計分佈是其關鍵特色。它迫使該領域正視安全性的多元性。
- 統計嚴謹性: 每個項目的高重複評分對於有意義的人口統計分析至關重要,DICES 在這方面做得很好。它提供了超越軼事所需的統計效力。
- 對模型開發具有可操作性: 它不僅僅是診斷問題;它提供了一個結構(分佈),可以直接指導更細緻的微調和評估指標,類似於不確定性量化如何改進了模型校準。
不足與開放性問題:
- 「人口統計瓶頸」: 雖然包含了關鍵的人口統計類別,但所選類別(種族、年齡、性別)只是一個起點。它忽略了交叉性(例如,年輕的黑人女性)以及其他維度,如社會經濟地位、殘疾狀況或文化地理,這些對於完整的圖景同樣至關重要。
- 操作化挑戰: 本文對於如何操作著墨較少。模型開發者究竟應該如何使用這些分佈?是微調至平均值?眾數?還是開發一個能夠根據推斷的使用者人口統計特徵調整其安全過濾器的系統?從豐富的數據到工程實踐的這一步,是下一個需要攀登的峭壁。
- 靜態快照: 關於安全性的社會規範會演變。一個資料集,無論多麼多樣化,都是一個靜態快照。該框架缺乏一個清晰的途徑來持續、動態地更新這些安全性認知,這也是其他靜態倫理資料集面臨的挑戰。
4. 可執行的見解
對於 AI 從業者和產品負責人:
- 立即稽核: 使用 DICES 框架(分佈,而非平均值)來稽核您當前的安全性分類器。您可能會發現它們僅與狹窄的人口統計切片保持一致。這是一種聲譽和產品風險。
- 重新定義您的指標: 停止報告單一的「安全分數」。報告一個安全性概況:「此模型的輸出與 A 群體的安全性認知有 X% 的一致性,並在 Y 和 Z 主題上與 B 群體存在分歧。」透明度能建立信任。
- 投資於適應性安全: 最終目標不是一個完美安全的模型,而是能夠理解上下文(包括使用者上下文)的模型。研究投資應從單一的安全過濾器轉向情境感知且可能針對使用者個人化的安全機制,確保模型行為對其受眾是適宜的。AI 倫理中關於價值對齊的研究,例如史丹佛以人為本人工智慧研究所(HAI)所討論的,強調對齊必須是與多元的人類價值觀對齊,而非單一的價值觀集合。
5. 技術框架與資料集設計
DICES 資料集圍繞著人機對話建構,這些對話由一個龐大、按人口統計分層的評分者群體進行安全性評分。關鍵創新在於數據結構:不是儲存單一標籤(例如,「不安全」),而是每個對話項目都與一個按人口統計分組細分的多維評分陣列相關聯。
對於給定的對話 $c_i$,資料集不提供 $label(c_i) \in \{0, 1\}$。相反,它提供一組評分者回應 $R_i = \{r_{i,1}, r_{i,2}, ..., r_{i,N}\}$,其中每個回應 $r_{i,j}$ 是一個元組 $(v_{i,j}, d_{i,j})$。這裡,$v_{i,j}$ 是安全性判定(例如,李克特量表或二元評分),而 $d_{i,j}$ 是一個編碼評分者人口統計屬性的向量(例如,$d_{i,j} = [\text{性別}=G1, \text{年齡}=A2, \text{族裔}=E3]$)。
5.1. 評分者分佈的數學表示
核心的分析能力來自於將這些個別評分聚合成分佈。對於一個特定的人口統計切片 $D_k$(例如,「亞裔,30-39歲,女性」),我們可以計算對話 $c_i$ 的安全性分數分佈:
$P(\text{分數} = s | c_i, D_k) = \frac{|\{r \in R_i : v(r)=s \land d(r) \in D_k\}|}{|\{r \in R_i : d(r) \in D_k\}|}$
這不僅允許計算平均安全分數 $\mu_{i,k}$,更重要的是,可以計算變異性度量($\sigma^2_{i,k}$)、模糊性(例如,分佈的熵 $H(P)$)以及不同人口統計群體之間的差異(例如,KL 散度 $D_{KL}(P_{i,k} || P_{i,l})$)。這種數學形式化對於超越簡單的平均化至關重要。
6. 實驗結果與圖表說明
雖然提供的 PDF 摘要是正在審查中的預印本,不包含完整的實驗結果,但所描述的資料集能夠實現幾項通常在圖表中呈現的關鍵分析:
- 圖表 1:人口統計分歧熱力圖: 一個矩陣視覺化,顯示在具爭議性的對話主題樣本中,不同人口統計群體(例如,群體 A:50 歲以上白人男性 vs. 群體 B:18-29 歲西班牙裔女性)之間安全性分數分佈的成對差異(例如,Jensen-Shannon 距離)。此圖表將生動地突顯認知分歧最強烈之處。
- 圖表 2:模糊性 vs. 共識散點圖: 根據每個對話項目的平均安全分數(x 軸)及其總評分分佈的熵(y 軸)繪製圖表。這將區分出被普遍視為安全/不安全的項目(低熵,高共識)與高度模糊的項目(高熵)。
- 圖表 3:模型效能拆解長條圖: 比較標準安全性分類器在針對不同人口統計群體定義的「標準答案」進行評估時的效能(例如,F1 分數)。對某些群體效能顯著下降,將表明模型的對齊是偏頗的。
DICES 的強大之處在於,它能生成創建這些圖表所需的數據,將評估從單一數字轉變為多面向的儀表板。
7. 分析框架:範例個案研究
情境: 一個對話式 AI 針對使用者提示生成了一個笑話。訓練數據和標準安全性評估將其標記為「安全」(幽默)。
基於 DICES 的分析:
- 數據檢索: 查詢 DICES 資料集中涉及相關主題的幽默或笑話的類似對話項目。
- 分佈分析: 檢查安全性評分分佈。您可能會發現:
- $P(\text{不安全} | \text{年齡}=18-29) = 0.15$
- $P(\text{不安全} | \text{年齡}=60+) = 0.65$
- $P(\text{不安全} | \text{族裔}=E1) = 0.20$
- $P(\text{不安全} | \text{族裔}=E2) = 0.55$
- 解讀: 這個笑話的「安全性」不是一個事實,而是人口統計特徵的函數。模型的輸出,雖然在技術上符合寬泛的「安全」規則,但具有被年長者和族裔群體 E2 的成員認為具有冒犯性的高風險。
- 行動: 一個簡單化的方法是封鎖所有笑話。而一個由 DICES 啟發的細緻方法可以是:a) 將此類內容標記為「高人口統計變異性」;b) 開發一個使用者上下文模組,讓模型能夠調整其幽默風格;或 c) 提供透明度說明:「此回應使用了幽默。對幽默的認知在不同文化和年齡群體間差異很大。」
這個個案研究說明了 DICES 如何將問題從「這安全嗎?」轉變為「對誰安全?在什麼條件下安全?」
8. 未來應用與研究方向
DICES 框架為未來工作開闢了幾個關鍵方向:
- 個人化與適應性安全模型: 邏輯終點不是一個放諸四海皆準的安全過濾器,而是能夠推斷相關使用者上下文(在適當的隱私保護下)並相應調整其安全閾值或內容生成策略的模型。這與機器學習中朝向個人化的更廣泛趨勢一致,正如在推薦系統中所見。
- 動態與持續性評估: 開發方法以近乎即時的方式持續更新像 DICES 這樣的安全性認知資料集,捕捉不斷演變的社會規範和新興爭議,類似於語言模型本身的持續更新方式。
- 交叉性分析工具: 擴展人口統計框架以更好地捕捉交叉性身份,超越獨立類別,以理解屬於多個少數群體的個體的複合經驗。
- 與基於人類回饋的強化學習(RLHF)整合: 使用來自 DICES 等資料集的拆解後的人類回饋來訓練對人口統計對齊敏感的獎勵模型,防止針對單一、可能狹隘的「良好」或「安全」對話概念進行優化。這解決了標準 RLHF 中的一個已知限制,正如 Anthropic 和 DeepMind 關於可擴展監督的研究所強調的。
- 全球擴展: 將數據收集擴展到真正的全球層面,涵蓋非西方文化和語言,以對抗許多 AI 安全資源中普遍存在的以英語為中心的偏見。
9. 參考文獻
- Aroyo, L., Taylor, A. S., Díaz, M., Homan, C. M., Parrish, A., Serapio-García, G., Prabhakaran, V., & Wang, D. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
- Bommasani, R., et al. (2021). On the Opportunities and Risks of Foundation Models. Stanford Center for Research on Foundation Models (CRFM).
- Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).
- Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems (NeurIPS).
- Stanford Institute for Human-Centered AI (HAI). (2023). The AI Index Report 2023. Stanford University.
- Weidinger, L., et al. (2021). Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359.
- Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (作為一個框架範例被引用——CycleGAN——它處理未配對、多模態數據,類似於 DICES 處理多樣化、未對齊的人類判斷)。