Выбрать язык

Набор данных DICES: Разнообразие в оценке безопасности диалогового ИИ

Представляем набор данных DICES для тонкой оценки безопасности диалогового ИИ, фиксирующий разнообразные человеческие перспективы с учётом демографии, чтобы выйти за рамки подходов с единственной «истиной».
agi-friend.com | PDF Size: 0.4 MB
Оценка: 4.5/5
Ваша оценка
Вы уже оценили этот документ
Обложка PDF-документа - Набор данных DICES: Разнообразие в оценке безопасности диалогового ИИ

1. Введение

Распространение диалоговых ИИ-систем, построенных на больших языковых моделях (LLM), сделало оценку безопасности критически важной задачей. Традиционные подходы часто полагаются на наборы данных с чётким бинарным разделением на «безопасный» и «небезопасный» контент, что чрезмерно упрощает изначально субъективную и культурно обусловленную природу безопасности. В данной работе представлен набор данных DICES (Diversity In Conversational AI Evaluation for Safety), разработанный для фиксации и анализа вариативности восприятия безопасности среди различных групп людей.

Ключевая проблема, которую мы решаем, — это игнорирование демографического и перспективного разнообразия в существующих наборах данных по безопасности, что может привести к созданию моделей, не соответствующих нормам конкретных пользовательских групп и имеющих «нежелательные или даже катастрофические последствия в реальных условиях».

1.1. Основные вклады

Основные вклады набора данных DICES и данной работы заключаются в следующем:

  • Разнообразие оценщиков: Смещение фокуса с устранения «предвзятости» на принятие и измерение «разнообразия» мнений оценщиков.
  • Детальная демографическая аннотация: Включение подробной демографической информации (раса/этническая группа, возраст, гендер) для каждого оценщика.
  • Высокая репликация на элемент: Каждый элемент диалога получает большое количество оценок для обеспечения статистической мощности анализа подгрупп.
  • Распределительное представление: Кодирование голосов по безопасности в виде распределений по демографическим группам, что позволяет исследовать различные стратегии агрегации, выходящие за рамки простого большинства.
  • Фреймворк для анализа: Предоставление основы для создания новых метрик, связывающих оценки оценщиков с демографическими категориями.

2. Структура набора данных DICES

DICES создан как общий ресурс и бенчмарк для учёта разнообразных перспектив в процессе оценки безопасности. Он выходит за рамки единой метки «истины».

2.1. Ключевые принципы проектирования

  • Целенаправленное разнообразие: Группа оценщиков структурирована таким образом, чтобы иметь сбалансированные пропорции ключевых демографических подгрупп.
  • Статистическая строгость: Высокая репликация оценок для каждого элемента диалога позволяет проводить надёжный анализ согласия, разногласий и дисперсии внутри и между группами.
  • Контекстуальная безопасность: Оценки основаны на диалогах «человек-бот», фиксируя безопасность в динамическом, интерактивном контексте, а не на изолированных промптах.

2.2. Состав и статистика набора данных

Демография оценщиков

Разнообразный пул по расовым/этническим группам, возрастным категориям и гендерам.

Оценок на элемент

Исключительно высокое количество репликаций (например, 50+ оценок на диалог) для проведения мощного анализа подгрупп.

Структура данных

Каждая точка данных связывает диалог, демографический профиль оценщика и его оценку безопасности (например, шкала Лайкерта или категориальная).

3. Техническая методология и аналитический фреймворк

Техническая инновация заключается в том, чтобы рассматривать безопасность не как скалярную величину, а как многомерное распределение.

3.1. Представление безопасности как распределения

Для заданного элемента диалога $i$ безопасность представлена не единой меткой $y_i$, а распределением оценок по $K$ демографическим группам. Пусть $R_{i,g}$ — множество оценок для элемента $i$ от оценщиков из группы $g$. Профиль безопасности для элемента $i$ — это вектор: $\mathbf{S}_i = (\bar{R}_{i,1}, \bar{R}_{i,2}, ..., \bar{R}_{i,K})$, где $\bar{R}_{i,g}$ — это центральная тенденция (например, среднее, медиана) оценок в группе $g$.

Метрики дисперсии, такие как $\sigma^2_{i,g}$ (внутригрупповая дисперсия) и $\Delta_{i, g1, g2} = |\bar{R}_{i,g1} - \bar{R}_{i,g2}|$ (межгрупповое разногласие), могут быть рассчитаны для количественной оценки неоднозначности и разницы в перспективах.

3.2. Стратегии агрегации и метрики

DICES позволяет сравнивать различные методы агрегации меток:

  • Большинство голосов (базовый уровень): $y_i^{maj} = \text{mode}(\bigcup_{g=1}^{K} R_{i,g})$
  • Демографически взвешенная агрегация: $y_i^{weighted} = \sum_{g=1}^{K} w_g \cdot \bar{R}_{i,g}$, где $w_g$ могут быть пропорциональны размеру популяции или другим весам, ориентированным на справедливость.
  • Минимальная безопасность (консервативная): $y_i^{min} = \min(\bar{R}_{i,1}, ..., \bar{R}_{i,K})$ отдаёт приоритет перспективе наиболее чувствительной группы.

Новые метрики, такие как Индекс демографического разногласия (Demographic Disagreement Index, DDI) или Оценка соответствия подгруппам (Subgroup Alignment Score), могут быть выведены для измерения того, как производительность модели варьируется между группами.

4. Результаты экспериментов и ключевые выводы

Хотя предоставленный отрывок из PDF является препринтом на рассмотрении и не содержит полных результатов, предлагаемый фреймворк приводит к нескольким ожидаемым выводам:

  • Значительная вариативность: Высокий уровень внутригрупповых и межгрупповых разногласий по меткам безопасности для существенной части элементов диалога, что ставит под сомнение существование универсального стандарта безопасности.
  • Демографические корреляции: Систематические различия в оценках безопасности наблюдаются по возрастным, расовым/этническим и гендерным признакам для определённых тем или тонов диалога (например, юмор, прямота, культурные отсылки).
  • Влияние агрегации: Выбор стратегии агрегации (большинство vs. взвешенная vs. минимальная) приводит к существенно разным итоговым меткам безопасности для 15-30% элементов, что значительно влияет на то, какие диалоги модель будет обучена избегать или допускать.
  • Разрыв в оценке модели: Модель, признанная «безопасной» по тестовому набору, агрегированному большинством, может показывать значительно более высокие показатели ошибок (например, +20% ложных отрицаний/положиний) при оценке с учётом предпочтений конкретных демографических подгрупп меньшинств.

Описание диаграммы (концептуальное): Многоаспектная диаграмма была бы центральной для представления результатов. Панель A показывает тепловую карту средних оценок безопасности (шкала 1-5) для 100 элементов диалога (строки) по 4 демографическим группам (столбцы), выявляя паттерны соответствия и разногласий. Панель B — столбчатая диаграмма, сравнивающая итоговый вердикт «безопасно/небезопасно» для 20 неоднозначных элементов при трёх стратегиях агрегации, наглядно демонстрируя последствия выбора агрегации. Панель C отображает точность модели для группы большинства против её точности для конкретной группы меньшинства, причём многие точки находятся ниже линии паритета, иллюстрируя разрыв в производительности.

5. Аналитический фреймворк: Практический пример

Сценарий: Команда разработчиков дообучает диалогового ИИ-ассистента для глобального приложения службы поддержки. Они используют стандартный набор данных по безопасности для фильтрации обучающих данных. Теперь они хотят использовать DICES для аудита соответствия безопасности их модели для разных пользовательских баз.

Шаги анализа:

  1. Аудит производительности подгрупп: Запустите модель на промптах диалогов из DICES. Соберите сгенерированные ею ответы. Попросите новый, демографически разнообразный пул оценщиков (или используйте оригинальные оценки DICES, если промпты схожи) оценить безопасность этих сгенерированных моделью диалогов. Рассчитайте точность/полноту/F1 для обнаружения безопасности отдельно для оценщиков из Группы A (например, возраст 18-30, Северная Америка) и Группы B (например, возраст 50+, Юго-Восточная Азия).
  2. Выявление точек разногласий: Выделите темы или стили диалога, где разрыв в производительности между Группой A и Группой B наибольший (например, разница >30% в воспринимаемом уровне безопасности). Это укажет на конкретные области, где соответствие безопасности модели не является устойчивым.
  3. Исследование стратегий агрегации: Смоделируйте дообучение модели с использованием меток безопасности, полученных из DICES с помощью: a) Большинства голосов, b) Взвешенной схемы, которая перепредставляет целевую региональную демографию (Группа B). Сравните поведение получившихся моделей. Фреймворк DICES предоставляет данные для принятия этого обоснованного выбора, а не для следования правилу большинства по умолчанию.
  4. Результат: Команда обнаруживает, что их текущая модель на 25% чаще генерирует ответы, воспринимаемые как «навязчивые» или «небезопасные» старшими оценщиками из Юго-Восточной Азии в контексте переговоров. Они решают использовать демографически взвешенную функцию потерь в следующем цикле дообучения, чтобы улучшить соответствие для этого ключевого сегмента пользователей.

6. Будущие применения и направления исследований

  • Динамическая адаптация безопасности: Модели, способные выводить контекст/демографию пользователя (с соответствующими мерами защиты конфиденциальности) и адаптировать свои защитные механизмы/ограничения диалога в реальном времени, используя такие фреймворки, как DICES, в качестве справочника по допустимой вариативности.
  • Персонализированное согласование ИИ: Расширение парадигмы с безопасности на другие субъективные качества (полезность, юмор, вежливость), позволяя пользователям калибровать личности ИИ в рамках проверенного сообществом диапазона предпочтений.
  • Формулирование политик и стандартов: Информирование отраслевых и регуляторных стандартов для оценки безопасности ИИ. DICES предоставляет методологию для определения порогов «разумного разногласия» и для обязательной оценки воздействия на подгруппы, аналогично аудитам справедливости в алгоритмах найма.
  • Кросс-культурное обучение моделей: Активное использование наборов данных, подобных DICES, для обучения моделей, которые явно осведомлены о перспективном разнообразии, возможно, через многозадачное обучение или архитектуры моделирования предпочтений, вдохновлённые обучением с подкреплением на основе человеческой обратной связи (RLHF), но с множественными, специфичными для групп моделями вознаграждения.
  • Лонгитюдные исследования: Отслеживание того, как восприятие безопасности внутри и между демографическими группами меняется со временем в ответ на технологические и социальные изменения, что потребует обновлённых версий набора данных DICES.

7. Ссылки

  1. Aroyo, L., et al. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
  2. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.
  3. Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Findings of the Association for Computational Linguistics: EMNLP 2020.
  4. Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
  5. Prabhakaran, V., Denton, E., Webster, K., & Conover, A. (2022). Creativity, Caution, and Collaboration: Understanding and Supporting Human-AI Co-creativity. Proceedings of the ACM on Human-Computer Interaction.
  6. Xu, J., et al. (2020). RECAST: Enabling User Recourse and Interpretability of Toxicity Detection Models with Interactive Visualization. Proceedings of the ACM on Human-Computer Interaction.

8. Экспертный анализ: Ключевая идея, логика, сильные и слабые стороны, практические выводы

Ключевая идея

DICES — это не просто ещё один набор данных; это прямой вызов эпистемологическим основам мейнстримной оценки безопасности ИИ. Ключевая идея работы заключается в том, что «безопасность» в диалоге — это не бинарное свойство текста, а возникающее свойство взаимодействия между текстом и конкретным человеческим контекстом. Относясь к разногласиям как к шуму, который нужно усреднить, мы строили модели для вымышленного, статистически среднего пользователя, который не существует. Эта работа, наряду с критическими исследованиями, такими как работа Bender et al. (2021) о «стохастических попугаях», заставляет признать: наше стремление к масштабируемой, автоматизированной безопасности может систематически стирать то самое разнообразие, которое мы заявляем о защите.

Логика

Аргументация убедительна и методична: 1) Выявление недостатка: Текущие наборы данных по безопасности предполагают единственную истину, скрывая субъективность. 2) Предложение решения: Чтобы отразить реальность, нам нужны данные, которые сохраняют вариативность и связывают её с демографией. 3) Создание инструмента: Отсюда DICES — с его целенаправленной демографической структурой и высокой репликацией. 4) Демонстрация полезности: Он позволяет проводить новые анализы (распределительные метрики, сравнение агрегаций), которые раскрывают последствия наших выборов. Логика плавно переходит от критики к конструктивному решению.

Сильные и слабые стороны

Сильные стороны: Концептуальная постановка — его главное достоинство. Смещение от «устранения предвзятости» к «измерению разнообразия» — это больше, чем семантика; это фундаментальная переориентация с дефицитной модели на плюралистическую. Технический дизайн (высокая репликация, распределительное кодирование) надёжен и напрямую служит его философской цели. Он предоставляет отчаянно необходимый бенчмарк для зарождающейся области инклюзивной оценки безопасности.

Слабые стороны и пробелы: Статус препринта означает, что конкретные, масштабные результаты ожидаются, оставляя нас доверять обещаниям фреймворка. Значительный пробел — это проблема операционализации: Как команда продукта на самом деле это использует? Выбор стратегии агрегации (большинство, взвешенная, минимальная) теперь становится сложным этическим и продуктовым решением, а не просто техническим. Набор данных также рискует овеществить используемые демографические категории; в работе упоминается интерсекциональность, но анализ всё ещё может рассматривать «возраст» и «расу» как независимые оси. Кроме того, как и RLHF Ouyang et al. (2022), он полагается на человеческих оценщиков, наследуя все сложности, затраты и потенциальные несоответствия этого процесса.

Практические выводы

Для практиков и руководителей в области ИИ:

  1. Немедленный аудит: Используйте фреймворк DICES (даже до выпуска полного набора данных) для проведения аудита разрыва между подгруппами для ваших текущих классификаторов безопасности. Вы можете начать с небольшого внутреннего демографического опроса. Вопрос не в том, «безопасна ли наша модель?», а в том, «для кого наша модель безопасна и где она даёт сбой?»
  2. Переопределение метрик успеха: Требуйте, чтобы отчёты об оценке безопасности включали метрики вариативности (например, стандартное отклонение оценок по ключевым пользовательским сегментам) наряду с традиционной точностью. Модель с точностью 95%, но высокой межгрупповой дисперсией рискованнее, чем модель с точностью 90% и низкой дисперсией.
  3. Инвестиции в архитектуру моделирования предпочтений: Выходите за рамки единой «модели вознаграждения» для безопасности. Исследуйте многоголовые модели вознаграждения или условные сети предпочтений, которые могут изучать отображение из (контекст, профиль пользователя) в соответствующие границы безопасности, используя наборы данных, подобные DICES, для обучения.
  4. Включение этиков и социологов в процесс: Выбор стратегии агрегации для ваших обучающих меток — это решение продуктовой политики с этическими последствиями. Это решение должно приниматься совместно, а не исключительно ML-инженерами, оптимизирующими под одну метрику.

DICES успешно доказывает, что игнорирование разнообразия — это экзистенциальный технический риск. Следующий шаг — создание инженерных и продуктовых практик, которые могут справиться со сложностью, которую он раскрывает.