DICES 資料集：對話式 AI 安全評估的多樣性

1. 簡介

基於大型語言模型（LLMs）的對話式 AI 系統日益普及，使得安全評估成為關鍵議題。傳統方法通常依賴於將內容明確二分為「安全」與「不安全」的資料集，這過度簡化了安全性本身主觀且受文化情境影響的特性。本文介紹 DICES（對話式 AI 安全評估多樣性） 資料集，旨在捕捉並分析不同人群對安全性認知的差異。

其解決的核心問題在於，現有安全資料集忽視了人口統計與觀點的多樣性，這可能導致模型與特定用戶群體的規範不一致，並在現實應用中產生「不必要甚至災難性的後果」。

1.1. 主要貢獻

DICES 資料集與本工作的主要貢獻如下：

評分者多樣性： 將焦點從減輕「偏見」轉向接納並衡量評分者意見的「多樣性」。
細粒度人口統計註解： 包含每位評分者的詳細人口統計資訊（種族/族裔群體、年齡、性別）。
高重複評分項目： 每個對話項目都獲得大量評分，以確保子群體分析的統計效力。
基於分佈的表示法： 將安全投票編碼為跨人口統計群體的分佈，從而能夠探索多數決以外的不同聚合策略。
分析框架： 為建立結合評分者評分與人口統計類別的新指標提供了基礎。

2. DICES 資料集框架

DICES 被建構為一個共享資源與基準，旨在安全評估過程中尊重多元觀點。它超越了單一的標準答案標籤。

2.1. 核心設計原則

刻意追求多樣性： 評分者群體結構旨在平衡關鍵人口統計子群體的比例。
統計嚴謹性： 每個對話項目的高重複評分，允許對群體內與群體間的同意度、不同意度和變異性進行穩健分析。
情境化安全性： 評分基於人機對話，在動態互動的情境中捕捉安全性，而非孤立提示。

2.2. 資料集組成與統計數據

評分者人口統計

涵蓋不同種族/族裔群體、年齡層和性別的多元群體。

每個項目的評分數

極高的重複評分數（例如，每個對話 50+ 個評分），以實現強大的子群體分析。

資料結構

每個資料點連結一個對話、評分者的人口統計資料及其安全評分（例如，李克特量表或分類評分）。

3. 技術方法論與分析框架

技術創新在於將安全性視為多維度分佈，而非單一標量。

3.1. 將安全性表示為分佈

對於給定的對話項目 $i$，安全性並非由單一標籤 $y_i$ 表示，而是由跨 $K$ 個人口統計群體的評分分佈來表示。令 $R_{i,g}$ 為來自群體 $g$ 的評分者對項目 $i$ 的評分集合。項目 $i$ 的安全概況是向量：$\mathbf{S}_i = (\bar{R}_{i,1}, \bar{R}_{i,2}, ..., \bar{R}_{i,K})$，其中 $\bar{R}_{i,g}$ 是群體 $g$ 內評分的集中趨勢（例如，平均值、中位數）。

可以計算變異性指標，如 $\sigma^2_{i,g}$（群體內變異數）和 $\Delta_{i, g1, g2} = |\bar{R}_{i,g1} - \bar{R}_{i,g2}|$（群體間分歧），以量化模糊性和觀點差異。

3.2. 聚合策略與指標

DICES 能夠比較不同的標籤聚合方法：

多數決（基準）： $y_i^{maj} = \text{mode}(\bigcup_{g=1}^{K} R_{i,g})$
人口統計加權聚合： $y_i^{weighted} = \sum_{g=1}^{K} w_g \cdot \bar{R}_{i,g}$，其中 $w_g$ 可與人口規模成正比，或採用其他關注公平性的權重。
最低安全性（保守）： $y_i^{min} = \min(\bar{R}_{i,1}, ..., \bar{R}_{i,K})$ 優先考慮最敏感群體的觀點。

可以推導出新的指標，如 人口統計分歧指數（DDI） 或 子群體對齊分數，以衡量模型效能如何在不同群體間變化。

4. 實驗結果與關鍵發現

雖然提供的 PDF 摘要是正在審查中的預印本，未包含完整結果，但所提出的框架預期會帶來以下幾項發現：

顯著變異： 對於相當一部分對話項目，安全標籤在群體內和群體間存在高度分歧，挑戰了通用安全標準的概念。
人口統計相關性： 在特定主題或對話語氣（例如，幽默、直率、文化引用）上，觀察到安全評分在年齡、種族/族裔和性別界線上存在系統性差異。
聚合策略的影響： 聚合策略的選擇（多數決 vs. 加權 vs. 最低值）會導致 15-30% 的項目最終安全標籤產生實質性差異，顯著影響模型將被訓練為避免或允許哪些對話。
模型評估差距： 一個被多數決聚合測試集認定為「安全」的模型，在針對特定少數人口統計子群體的偏好進行評估時，可能顯示出顯著更高的錯誤率（例如，+20% 的偽陰性/偽陽性）。

圖表描述（概念性）： 一個多面向的圖表將是呈現結果的核心。圖 A 顯示了 100 個對話項目（列）在 4 個人口統計群體（行）上的平均安全分數（1-5 分制）熱圖，揭示了對齊與分歧的模式。圖 B 是一個長條圖，比較了 20 個模糊項目在三種聚合策略下的最終「安全/不安全」判定，直觀展示了聚合選擇的後果。圖 C 繪製了模型對多數群體的準確率與對特定少數群體的準確率，許多點落在平等線以下，說明了效能差異。

5. 分析框架：實務案例研究

情境： 一個開發團隊正在為一個全球客戶服務應用程式微調一個對話式 AI 助理。他們使用標準安全資料集來過濾訓練資料。現在他們希望使用 DICES 來稽核其模型針對不同用戶群體的安全對齊情況。

分析步驟：

子群體效能稽核： 在 DICES 對話提示上運行模型。收集其生成的回應。讓一個新的、人口統計多元的評分者群體（或如果提示相似，使用 DICES 的原始評分）評估這些模型生成對話的安全性。分別計算群體 A（例如，18-30 歲，北美）和群體 B（例如，50 歲以上，東南亞）評分者在安全偵測上的精確率/召回率/F1 分數。
識別分歧熱點： 找出群體 A 與群體 B 之間效能差距最大的對話主題或風格（例如，感知安全率差異 >30%）。這能精確定位模型安全對齊不穩固的特定領域。
探索聚合策略： 模擬使用 DICES 衍生的安全標籤來微調模型，標籤來源包括：a) 多數決，b) 過度代表目標區域人口統計（群體 B）的加權方案。比較所得模型的行為。DICES 框架提供了數據來做出明智選擇，而非預設採用多數決。
結果： 團隊發現他們目前的模型在談判情境下，被年長的東南亞評分者認為「強勢」或「不安全」的可能性高出 25%。他們決定在下一個微調週期中使用人口統計加權的損失函數，以改善對該關鍵用戶群體的對齊。

6. 未來應用與研究方向

動態安全適應： 模型能夠推斷用戶情境/人口統計資訊（在適當的隱私保護下），並即時調整其安全/對話防護機制，使用像 DICES 這樣的框架作為可接受變異範圍的參考。
個人化 AI 對齊： 將典範從安全性擴展到其他主觀品質（幫助性、幽默感、禮貌性），允許用戶在社群驗證的偏好範圍內校準 AI 個性。
政策與標準制定： 為 AI 安全評估提供產業與監管標準的參考。DICES 提供了一種方法論，用於定義「合理分歧」閾值，並強制要求進行子群體影響評估，類似於招聘演算法中的公平性稽核。
跨文化模型訓練： 積極使用像 DICES 這樣的資料集來訓練模型，使其明確意識到觀點多樣性，可能透過多任務學習或受人類回饋強化學習（RLHF）啟發但具有多個、群體特定獎勵模型的偏好建模架構來實現。
縱向研究： 追蹤隨著技術和社會變化，人口統計群體內和群體間的安全認知如何隨時間演變，這需要 DICES 資料集的更新版本。

7. 參考文獻

Aroyo, L., et al. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.
Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Findings of the Association for Computational Linguistics: EMNLP 2020.
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Prabhakaran, V., Denton, E., Webster, K., & Conover, A. (2022). Creativity, Caution, and Collaboration: Understanding and Supporting Human-AI Co-creativity. Proceedings of the ACM on Human-Computer Interaction.
Xu, J., et al. (2020). RECAST: Enabling User Recourse and Interpretability of Toxicity Detection Models with Interactive Visualization. Proceedings of the ACM on Human-Computer Interaction.

8. 專家分析：核心見解、邏輯脈絡、優缺點、可行建議

核心見解

DICES 不僅僅是另一個資料集；它是對主流 AI 安全評估認識論基礎的直接挑戰。本文的核心見解是：對話中的「安全性」並非文本的二進位屬性，而是文本與特定人類情境互動中湧現的屬性。 透過將分歧視為需要被平均掉的雜訊，我們一直在為一個虛構的、統計上平均的、不存在的用戶建立模型。這項工作，連同 Bender 等人（2021）關於「隨機鸚鵡」的批判性研究，迫使我們正視：我們對可擴展、自動化安全的追求，可能正在系統性地抹除我們聲稱要保護的多樣性。

邏輯脈絡

論證引人注目且有條理：1) 指出缺陷： 當前安全資料集假設單一標準答案，掩蓋了主觀性。2) 提出解方： 為捕捉現實，我們需要能保留變異性並將其與人口統計連結的數據。3) 建構工具： 因此有了 DICES——其刻意的人口統計結構和高重複評分。4) 展示效用： 它實現了新的分析（基於分佈的指標、聚合比較），揭示了我們選擇的後果。邏輯從批判到建設性解決方案無縫銜接。

優點與缺點

優點： 概念框架是其最大資產。從「減輕偏見」轉向「衡量多樣性」不僅是語義上的轉變，更是從缺陷模型到多元模型的根本性重新定位。技術設計（高重複評分、分佈編碼）穩健，直接服務於其哲學目標。它為新興的包容性安全評估領域提供了一個迫切需要的基準。

缺點與不足： 預印本狀態意味著具體、大規模的結果尚待公布，我們只能相信框架的承諾。一個顯著的不足是操作化挑戰：產品團隊實際上如何使用它？選擇聚合策略（多數決、加權、最低值）現在是一個棘手的倫理與產品決策，而不僅僅是技術決策。該資料集也有固化其所使用的人口統計類別的風險；本文提及了交叉性，但分析可能仍將「年齡」和「種族」視為獨立軸線。此外，如同 Ouyang 等人（2022）的 RLHF，它依賴人類評分者，繼承了該過程所有的複雜性、成本和潛在的不一致性。

可行建議

給 AI 從業者與領導者：

立即稽核： 使用 DICES 框架（即使在完整資料集發布前）對您當前的安全分類器進行子群體差異稽核。您可以從較小規模的內部人口統計調查開始。問題不是「我們的模型安全嗎？」，而是「我們的模型對誰安全，在哪裡會失敗？」
重新定義成功指標： 要求安全評估報告在傳統準確率之外，必須包含變異性指標（例如，跨關鍵用戶群體的評分標準差）。一個準確率 95% 但群體間變異性高的模型，比一個準確率 90% 但變異性低的模型風險更高。
投資偏好建模架構： 超越單一的安全「獎勵模型」。探索多頭獎勵模型或條件偏好網路，這些模型能夠學習從（情境、用戶資料）到適當安全邊界的映射，並使用像 DICES 這樣的資料集進行訓練。
將倫理學家與社會科學家納入循環： 為訓練標籤選擇聚合策略是一個具有倫理影響的產品政策決策。此決策必須協作完成，而非僅由優化單一指標的 ML 工程師決定。

DICES 成功地論證了忽視多樣性是一種存在性的技術風險。下一步是建立能夠處理其所揭示的複雜性的工程與產品管理實踐。