1. 簡介
基於大型語言模型(LLMs)嘅對話式人工智能系統日益普及,令安全評估成為一個關鍵關注點。傳統方法通常依賴於將內容簡單二分為「安全」同「唔安全」嘅數據集,呢種做法本質上過度簡化咗安全嘅主觀性同文化情境性。由 Google Research、倫敦城市大學同劍橋大學嘅研究人員引入嘅 DICES(對話式 AI 安全評估多樣性)數據集,正係為咗填補呢個缺口。佢提供咗一個資源,能夠捕捉人類對 AI 安全嘅固有差異、模糊性同觀點多樣性。
DICES 嘅設計基於三個核心原則:1) 包含評分者嘅細粒度人口統計資訊(例如種族/民族群體、年齡、性別);2) 每個對話項目嘅評分具有高重複性,以確保統計效力;3) 將評分者投票編碼為跨人口統計類別嘅分佈,從而能夠探索唔同嘅聚合策略。呢種設計超越咗單一嘅「基本事實」,轉而將安全視為一個多面向、依賴於人群嘅構建。
1.1. 貢獻
DICES 數據集及相關研究嘅主要貢獻如下:
- 評分者多樣性作為核心特徵: 將焦點從減輕「偏見」轉向擁抱同分析評分者意見嘅「多樣性」。
- 細粒度分析框架: 提供一個數據集結構,允許深入探索安全認知如何與人口統計類別相交。
- 細緻評估基準: 將 DICES 確立為一個共享資源,用於以尊重多元觀點嘅方式評估對話式 AI 系統,超越單一嘅安全分數。
2. 核心見解與邏輯流程
核心見解: 主流 AI 安全評估嘅根本缺陷唔係缺乏數據,而係缺乏具代表性同可分解嘅數據。將安全視為一個客觀嘅二元分類任務係一種危險嘅過度簡化,佢抹殺咗文化細微差別,並可能導致系統只對主流人口群體「安全」。DICES 正確地指出,安全係一種社會構建,其評估必須係統計性嘅,而非確定性嘅。
邏輯流程: 論文嘅論證非常清晰:1) 目前 LLM 嘅安全微調依賴於簡化嘅數據集。2) 呢種簡化忽略咗主觀差異,而對於安全呢個社會情境概念嚟講,呢點尤其成問題。3) 因此,我哋需要一類新嘅數據集,通過人口統計多樣性同高評分者重複性,明確捕捉呢種差異。4) DICES 提供咗呢一點,使分析能夠揭示邊啲群體認為邊啲內容唔安全,以及程度如何。呢個流程邏輯上拆解咗通用安全標準嘅迷思,並用一個理解安全格局嘅框架取而代之。
3. 優點與不足
優點:
- 範式轉移設計: 從二元標籤轉向人口統計分佈係佢嘅殺手鐧。佢迫使呢個領域直面安全嘅多元性。
- 統計嚴謹性: 每個項目嘅高重複性對於有意義嘅人口統計分析係必不可少嘅,DICES 做到咗呢一點。佢提供咗超越軼事所需嘅統計效力。
- 對模型開發具有可操作性: 佢唔單止診斷問題,仲提供咗一個可以直接指導更細緻嘅微調同評估指標嘅結構(分佈),就好似不確定性量化改善咗模型校準一樣。
不足與開放問題:
- 「人口統計瓶頸」: 雖然包含咗關鍵人口統計類別,但類別嘅選擇(種族、年齡、性別)只係一個起點。佢忽略咗交叉性(例如年輕黑人女性)以及其他維度,如社會經濟地位、殘疾或文化地理,呢啲對於完整圖景同樣至關重要。
- 操作化挑戰: 論文對具體點樣做著墨較少。模型開發者究竟應該點樣使用呢啲分佈?係根據平均值微調?定眾數?抑或開發一個能夠根據推斷嘅用戶人口統計特徵調整其安全過濾器嘅系統?從豐富數據到工程實踐嘅呢一步,係下一個需要攻克嘅難關。
- 靜態快照: 社會對安全嘅規範係演變嘅。一個數據集,無論幾咁多樣化,都只係一個靜態快照。該框架缺乏清晰嘅路徑,用於持續、動態更新呢啲安全認知,呢個挑戰亦係其他靜態倫理數據集所面臨嘅。
4. 可行見解
對於 AI 從業者同產品負責人:
- 立即審計: 使用 DICES 框架(分佈,而非平均值)審計你目前嘅安全分類器。你好可能會發現佢哋只同一個狹窄嘅人口群體觀點一致。呢個係聲譽同產品風險。
- 重新定義你嘅指標: 停止報告單一嘅「安全分數」。報告一個安全概況:「呢個模型嘅輸出與 A 群體嘅安全認知一致,同意度為 X%;並在 Y 同 Z 話題上與 B 群體存在分歧。」透明度建立信任。
- 投資於適應性安全: 最終目標唔係一個完美安全嘅模型,而係能夠理解上下文(包括用戶上下文)嘅模型。研究投資應該從單一嘅安全過濾器轉向情境感知、甚至可能係用戶個性化嘅安全機制,確保模型行為對其受眾係合適嘅。AI 倫理中關於價值對齊嘅研究,例如史丹福大學以人為本人工智能研究所(HAI)所討論嘅,強調對齊必須係與多元人類價值觀對齊,而非單一一套。
5. 技術框架與數據集設計
DICES 數據集圍繞人機對話構建,由一個龐大、按人口統計分層嘅評分者群體對其安全性進行評分。關鍵創新在於數據結構:唔係儲存單一標籤(例如「唔安全」),而係每個對話項目都關聯住一個按人口統計類別分解嘅多維評分陣列。
對於給定對話 $c_i$,數據集唔提供 $label(c_i) \in \{0, 1\}$。相反,佢提供一組評分者回應 $R_i = \{r_{i,1}, r_{i,2}, ..., r_{i,N}\}$,其中每個回應 $r_{i,j}$ 係一個元組 $(v_{i,j}, d_{i,j})$。此處,$v_{i,j}$ 係安全判定(例如,李克特量表或二元),$d_{i,j}$ 係編碼評分者人口統計屬性嘅向量(例如,$d_{i,j} = [\text{gender}=G1, \text{age}=A2, \text{ethnicity}=E3]$)。
5.1. 評分者分佈嘅數學表示
核心分析能力嚟自將呢啲個體評分聚合成分佈。對於特定人口統計切片 $D_k$(例如,「亞裔,30-39歲,女性」),我哋可以計算對話 $c_i$ 嘅安全分數分佈:
$P(\text{score} = s | c_i, D_k) = \frac{|\{r \in R_i : v(r)=s \land d(r) \in D_k\}|}{|\{r \in R_i : d(r) \in D_k\}|}$
呢樣唔單止允許計算平均安全分數 $\mu_{i,k}$,更重要嘅係,可以計算方差($\sigma^2_{i,k}$)、模糊性(例如,分佈嘅熵 $H(P)$)以及唔同人口統計群體之間嘅差異(例如,KL 散度 $D_{KL}(P_{i,k} || P_{i,l})$)。呢種數學形式化對於超越簡單平均至關重要。
6. 實驗結果與圖表描述
雖然提供嘅 PDF 摘錄係一份審稿中嘅預印本,並未包含完整實驗結果,但所描述嘅數據集能夠實現幾項通常會以圖表呈現嘅關鍵分析:
- 圖表 1:人口統計分歧熱力圖: 一個矩陣可視化,展示唔同人口統計群體(例如,群體 A:50 歲以上白人男性 vs. 群體 B:18-29 歲西班牙裔女性)之間,喺一系列有爭議對話話題上安全分數分佈嘅兩兩差異(例如,Jensen-Shannon 距離)。呢個圖表會生動地突顯認知分歧最大嘅地方。
- 圖表 2:模糊性 vs. 共識散點圖: 根據每個對話項目嘅平均安全分數(x 軸)同其總評分分佈嘅熵(y 軸)繪圖。呢樣可以將普遍被視為安全/唔安全嘅項目(低熵,高共識)同高度模糊嘅項目(高熵)分開。
- 圖表 3:模型性能分解條形圖: 比較標準安全分類器針對唔同人口統計群體定義嘅「基本事實」進行評估時嘅性能(例如,F1 分數)。對某啲群體性能顯著下降,表明模型嘅對齊係有偏差嘅。
DICES 嘅威力在於,佢生成咗創建呢啲圖表所需嘅數據,將評估從單一數字轉變為多面向嘅儀表板。
7. 分析框架:示例案例研究
場景: 一個對話式 AI 為響應用戶提示而生成一個笑話。訓練數據同標準安全評估將其標記為「安全」(幽默)。
基於 DICES 嘅分析:
- 數據檢索: 查詢 DICES 數據集中涉及相關話題幽默或笑話嘅類似對話項目。
- 分佈分析: 檢查安全評分分佈。你可能會發現:
- $P(\text{unsafe} | \text{age}=18-29) = 0.15$
- $P(\text{unsafe} | \text{age}=60+) = 0.65$
- $P(\text{unsafe} | \text{ethnicity}=E1) = 0.20$
- $P(\text{unsafe} | \text{ethnicity}=E2) = 0.55$
- 解讀: 呢個笑話嘅「安全性」唔係一個事實,而係人口統計嘅函數。模型嘅輸出,雖然技術上符合廣泛嘅「安全」規則,但存在被年長者同民族群體 E2 嘅成員認為具有冒犯性嘅高風險。
- 行動: 一個簡單化嘅方法係封鎖所有笑話。一個由 DICES 啟發嘅細緻方法可以係:a) 將呢類內容標記為「高人口統計方差」;b) 開發一個用戶上下文模組,允許模型調整其幽默風格;或 c) 提供透明度說明:「此回應使用幽默。對幽默嘅認知因文化同年齡組別而有很大差異。」
呢個案例研究說明咗 DICES 如何將問題從「呢個安全嗎?」轉變為「對邊個安全,以及在咩條件下安全?」
8. 未來應用與研究方向
DICES 框架為未來工作開闢咗幾個關鍵方向:
- 個性化與適應性安全模型: 邏輯終點唔係一個通用嘅安全過濾器,而係能夠推斷相關用戶上下文(並採取適當嘅隱私保護措施)並相應調整其安全閾值或內容生成策略嘅模型。呢個與機器學習中朝向個性化嘅更廣泛趨勢一致,正如推薦系統中所見。
- 動態同持續評估: 開發方法以近乎實時嘅方式持續更新像 DICES 咁樣嘅安全認知數據集,捕捉演變中嘅社會規範同新興爭議,類似於語言模型本身嘅持續更新。
- 交叉性分析工具: 擴展人口統計框架以更好地捕捉交叉身份,超越獨立類別,理解屬於多個少數群體嘅個人嘅複合經歷。
- 與基於人類反饋嘅強化學習(RLHF)整合: 使用來自 DICES 等數據集嘅分解人類反饋,訓練對人口統計對齊敏感嘅獎勵模型,防止優化單一、可能狹隘嘅「良好」或「安全」對話概念。呢個解決咗標準 RLHF 中一個已知嘅限制,正如 Anthropic 同 DeepMind 關於可擴展監督嘅研究所強調嘅。
- 全球擴展: 將數據收集擴展到真正嘅全球層面,涵蓋非西方文化同語言,以對抗許多 AI 安全資源中普遍存在嘅盎格魯中心偏見。
9. 參考文獻
- Aroyo, L., Taylor, A. S., Díaz, M., Homan, C. M., Parrish, A., Serapio-García, G., Prabhakaran, V., & Wang, D. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
- Bommasani, R., et al. (2021). On the Opportunities and Risks of Foundation Models. Stanford Center for Research on Foundation Models (CRFM).
- Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).
- Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems (NeurIPS).
- Stanford Institute for Human-Centered AI (HAI). (2023). The AI Index Report 2023. Stanford University.
- Weidinger, L., et al. (2021). Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359.
- Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (作為一個處理非配對、多模態數據嘅框架——CycleGAN——嘅例子被引用,類似於 DICES 處理多樣化、未對齊嘅人類判斷)。