Набор данных DICES: Разнообразие в оценке безопасности диалогового ИИ

1. Введение

Распространение диалоговых ИИ-систем, построенных на больших языковых моделях (LLM), сделало оценку безопасности критически важной задачей. Традиционные подходы часто полагаются на наборы данных с чётким бинарным разделением на «безопасный» и «небезопасный» контент, что по своей сути чрезмерно упрощает субъективную и культурно обусловленную природу безопасности. Набор данных DICES (Diversity In Conversational AI Evaluation for Safety), представленный исследователями из Google Research, Лондонского городского университета и Кембриджского университета, устраняет этот пробел, предоставляя ресурс, который фиксирует присущую вариативность, неоднозначность и разнообразие человеческих взглядов на безопасность ИИ.

DICES разработан на основе трёх ключевых принципов: 1) включение детальной демографической информации об оценщиках (например, расовая/этническая группа, возраст, гендер), 2) высокая повторяемость оценок для каждого диалогового элемента для обеспечения статистической мощности и 3) кодирование оценок как распределений по демографическим группам, что позволяет исследовать различные стратегии агрегации. Такой дизайн выходит за рамки единой «истинной метки» и рассматривает безопасность как многогранную конструкцию, зависящую от популяции.

1.1. Основные вклады

Основные вклады набора данных DICES и сопутствующего исследования:

Разнообразие оценщиков как ключевая особенность: Смещение фокуса с «смягчения предвзятости» на принятие и анализ «разнообразия» мнений оценщиков.
Структура для детального анализа: Предоставление структуры набора данных, позволяющей глубоко исследовать, как восприятие безопасности пересекается с демографическими категориями.
Бенчмарк для тонкой оценки: Установление DICES в качестве общего ресурса для оценки диалоговых ИИ-систем с учётом различных точек зрения, выходя за рамки монолитных оценок безопасности.

2. Ключевая идея и логика

Ключевая идея: Фундаментальный недостаток основной оценки безопасности ИИ заключается не в отсутствии данных, а в отсутствии репрезентативных и дезагрегированных данных. Рассмотрение безопасности как объективной задачи бинарной классификации — опасное упрощение, стирающее культурные нюансы и способное привести к созданию систем, «безопасных» только для доминирующей демографической группы. DICES правильно определяет, что безопасность — это социальный конструкт, и её оценка должна быть статистической, а не детерминированной.

Логика: Аргументация статьи предельно чёткая: 1) Текущая тонкая настройка безопасности LLM опирается на упрощённые наборы данных. 2) Это упрощение игнорирует субъективную вариативность, что особенно проблематично для безопасности — социально обусловленного понятия. 3) Следовательно, нам нужен новый класс наборов данных, который явно фиксирует эту вариативность через демографическое разнообразие и высокую повторяемость оценок. 4) DICES предоставляет это, позволяя проводить анализы, которые показывают, какие группы считают какой контент небезопасным и в какой степени. Эта логика последовательно развенчивает миф об универсальном стандарте безопасности и заменяет его структурой для понимания ландшафтов безопасности.

3. Сильные стороны и недостатки

Сильные стороны:

Парадигмальный дизайн: Переход от бинарных меток к демографическим распределениям — его ключевая особенность. Это заставляет область столкнуться с множественностью безопасности.
Статистическая строгость: Высокая повторяемость для каждого элемента обязательна для содержательного демографического анализа, и DICES делает это правильно. Он обеспечивает статистическую мощность, необходимую для выхода за рамки единичных случаев.
Практическая ценность для разработки моделей: Он не просто диагностирует проблему; он предоставляет структуру (распределения), которая может напрямую информировать более тонкую настройку и метрики оценки, подобно тому, как оценка неопределённости улучшила калибровку моделей.

Недостатки и открытые вопросы:

«Демографическое узкое место»: Хотя он включает ключевые демографические данные, выбор категорий (раса, возраст, гендер) — это отправная точка. Он упускает интерсекциональность (например, молодые чернокожие женщины) и другие оси, такие как социально-экономический статус, инвалидность или культурная география, которые одинаково важны для полной картины.
Проблема операционализации: В статье мало говорится о том, как именно. Как именно разработчик модели должен использовать эти распределения? Настраивать на среднее значение? На моду? Или разрабатывать систему, которая может адаптировать свой фильтр безопасности на основе предполагаемой демографии пользователя? Шаг от богатых данных к инженерной практике — следующая вершина для покорения.
Статичный снимок: Социальные нормы безопасности развиваются. Набор данных, каким бы разнообразным он ни был, — это статичный снимок. В структуре отсутствует чёткий путь для непрерывного, динамического обновления этих представлений о безопасности — вызов, с которым сталкиваются и другие статические этические наборы данных.

4. Практические выводы

Для практиков ИИ и продуктовых руководителей:

Немедленный аудит: Используйте структуру DICES (распределения, а не средние значения) для аудита ваших текущих классификаторов безопасности. Скорее всего, вы обнаружите, что они соответствуют узкому демографическому срезу. Это репутационный и продуктовый риск.
Переопределите свою метрику: Прекратите сообщать единый «оценку безопасности». Сообщайте профиль безопасности: «Результаты этой модели соответствуют восприятию безопасности Группы A с согласием X% и расходятся с Группой B по темам Y и Z». Прозрачность укрепляет доверие.
Инвестируйте в адаптивную безопасность: Конечная цель — не одна идеально безопасная модель, а модели, которые могут понимать контекст, включая контекст пользователя. Исследовательские инвестиции должны сместиться с монолитных фильтров безопасности в сторону контекстно-зависимых и потенциально персонализированных механизмов безопасности, обеспечивая соответствие поведения модели своей аудитории. Работа по согласованию ценностей в этике ИИ, например, обсуждаемая в Стэнфордском институте человеко-ориентированного ИИ (HAI), подчёркивает, что согласование должно быть с множеством человеческих ценностей, а не с одним набором.

5. Техническая структура и дизайн набора данных

Набор данных DICES построен вокруг диалогов «человек-бот», которые оцениваются на безопасность большой, демографически стратифицированной группой оценщиков. Ключевое нововведение — структура данных: вместо хранения одной метки (например, «небезопасно») каждый диалоговый элемент связан с многомерным массивом оценок, разбитых по демографическим группам.

Для заданного диалога $c_i$ набор данных не предоставляет $label(c_i) \in \{0, 1\}$. Вместо этого он предоставляет набор ответов оценщиков $R_i = \{r_{i,1}, r_{i,2}, ..., r_{i,N}\}$, где каждый ответ $r_{i,j}$ представляет собой кортеж $(v_{i,j}, d_{i,j})$. Здесь $v_{i,j}$ — вердикт о безопасности (например, по шкале Лайкерта или бинарный), а $d_{i,j}$ — вектор, кодирующий демографические атрибуты оценщика (например, $d_{i,j} = [\text{гендер}=G1, \text{возраст}=A2, \text{этническая принадлежность}=E3]$).

5.1. Математическое представление распределений оценок

Основная аналитическая сила заключается в агрегировании этих индивидуальных оценок в распределения. Для конкретного демографического среза $D_k$ (например, «азиаты, 30-39 лет, женщины») мы можем вычислить распределение оценок безопасности для диалога $c_i$:

$P(\text{оценка} = s | c_i, D_k) = \frac{|\{r \in R_i : v(r)=s \land d(r) \in D_k\}|}{|\{r \in R_i : d(r) \in D_k\}|}$

Это позволяет рассчитывать не только среднюю оценку безопасности $\mu_{i,k}$, но, что более важно, меры дисперсии ($\sigma^2_{i,k}$), неоднозначности (например, энтропию распределения $H(P)$) и расхождения между демографическими группами (например, дивергенцию Кульбака-Лейблера $D_{KL}(P_{i,k} || P_{i,l})$). Эта математическая формализация имеет решающее значение для выхода за рамки упрощённого усреднения.

6. Экспериментальные результаты и анализ

Хотя предоставленный отрывок PDF является препринтом на рассмотрении и не содержит полных экспериментальных результатов, описанный набор данных позволяет проводить несколько ключевых анализов, которые обычно представляются в виде диаграмм:

Диаграмма 1: Тепловая карта демографических разногласий: Матричная визуализация, показывающая попарное расхождение (например, расстояние Йенсена-Шеннона) в распределениях оценок безопасности между различными демографическими группами (например, Группа A: белые мужчины 50+ против Группы B: латиноамериканки 18-29) на выборке спорных тем диалогов. Эта диаграмма наглядно выделит области, где восприятия наиболее сильно расходятся.
Диаграмма 2: Точечная диаграмма «Неоднозначность vs. Консенсус»: Отображение каждого диалогового элемента на основе его средней оценки безопасности (ось x) и энтропии его общего распределения оценок (ось y). Это отделит элементы, которые все считают безопасными/небезопасными (низкая энтропия, высокий консенсус), от тех, которые являются высоко неоднозначными (высокая энтропия).
Диаграмма 3: Столбчатая диаграмма дезагрегированной производительности модели: Сравнение производительности (например, F1-оценки) стандартного классификатора безопасности при оценке относительно «истинной метки», определённой разными демографическими группами. Значительное падение производительности для определённых групп укажет на смещённость согласования модели.

Сила DICES заключается в том, что он генерирует данные, необходимые для создания этих диаграмм, переводя оценку с одного числа на многофакторную панель управления.

7. Структура анализа: пример кейса

Сценарий: Диалоговый ИИ генерирует шутку в ответ на запрос пользователя. Обучающие данные и стандартная оценка безопасности помечают её как «безопасную» (юмор).

Анализ на основе DICES:

Извлечение данных: Запросите набор данных DICES на предмет похожих диалоговых элементов, связанных с юмором или шутками на смежные темы.
Анализ распределений: Изучите распределения оценок безопасности. Вы можете обнаружить:
- $P(\text{небезопасно} | \text{возраст}=18-29) = 0.15$
- $P(\text{небезопасно} | \text{возраст}=60+) = 0.65$
- $P(\text{небезопасно} | \text{этническая принадлежность}=E1) = 0.20$
- $P(\text{небезопасно} | \text{этническая принадлежность}=E2) = 0.55$
Интерпретация: «Безопасность» этой шутки — не факт, а функция демографии. Результат модели, хотя технически соответствует широкому правилу «безопасности», несёт высокий риск быть воспринятым как оскорбительный пожилыми людьми и представителями этнической группы E2.
Действие: Упрощённый подход — заблокировать все шутки. Тонкий подход, основанный на DICES, может заключаться в том, чтобы: a) Пометить этот тип контента как «имеющий высокую демографическую вариативность», b) Разработать модуль контекста пользователя, позволяющий модели адаптировать свой стиль юмора, или c) Предоставить примечание о прозрачности: «В этом ответе используется юмор. Восприятие юмора сильно различается в разных культурах и возрастных группах».

Этот кейс иллюстрирует, как DICES смещает вопрос с «Безопасно ли это?» на «Безопасно для кого и при каких условиях?».

8. Будущие применения и направления исследований

Структура DICES открывает несколько критически важных направлений для будущей работы:

Персонализированные и адаптивные модели безопасности: Логический итог — не универсальный фильтр безопасности, а модели, которые могут выводить соответствующий контекст пользователя (с соответствующими мерами защиты конфиденциальности) и адаптировать свои пороги безопасности или стратегии генерации контента соответственно. Это согласуется с общей тенденцией в машинном обучении к персонализации, как в рекомендательных системах.
Динамическая и непрерывная оценка: Разработка методов для почти непрерывного обновления наборов данных о восприятии безопасности, подобных DICES, в режиме, близком к реальному времени, для фиксации развивающихся социальных норм и возникающих споров, аналогично тому, как сами языковые модели постоянно обновляются.
Инструменты интерсекционального анализа: Расширение демографической структуры для лучшего охвата интерсекциональных идентичностей, переход от независимых категорий к пониманию совокупного опыта людей, принадлежащих к нескольким группам меньшинств.
Интеграция с обучением с подкреплением на основе человеческой обратной связи (RLHF): Использование дезагрегированной человеческой обратной связи из наборов данных, подобных DICES, для обучения моделей вознаграждения, чувствительных к демографическому согласованию, предотвращая оптимизацию под единое, потенциально узкое понятие «хорошего» или «безопасного» диалога. Это решает известное ограничение стандартного RLHF, отмеченное в исследованиях Anthropic и DeepMind по масштабируемому контролю.
Глобальное расширение: Масштабирование сбора данных до действительно глобального уровня, охватывающего незападные культуры и языки, для борьбы с англоцентричной предвзятостью, распространённой во многих ресурсах по безопасности ИИ.

9. Ссылки

Aroyo, L., Taylor, A. S., Díaz, M., Homan, C. M., Parrish, A., Serapio-García, G., Prabhakaran, V., & Wang, D. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
Bommasani, R., et al. (2021). On the Opportunities and Risks of Foundation Models. Stanford Center for Research on Foundation Models (CRFM).
Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems (NeurIPS).
Stanford Institute for Human-Centered AI (HAI). (2023). The AI Index Report 2023. Stanford University.
Weidinger, L., et al. (2021). Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (Цитируется как пример структуры — CycleGAN — которая работает с несопоставленными, многомодальными данными, аналогично тому, как DICES работает с разнообразными, несогласованными человеческими суждениями).