Jeu de données DICES : Diversité dans l'évaluation de la sécurité des IA conversationnelles

1. Introduction

La prolifération des systèmes d'IA conversationnelle basés sur les grands modèles de langage (LLM) a fait de l'évaluation de la sécurité une préoccupation critique. Les approches traditionnelles s'appuient souvent sur des jeux de données avec une séparation binaire claire entre contenu « sûr » et « non sûr », ce qui simplifie à l'excès la nature subjective et culturellement située de la sécurité. Le jeu de données DICES (Diversity In Conversational AI Evaluation for Safety), présenté par des chercheurs de Google Research, de la City University of London et de l'Université de Cambridge, comble cette lacune en fournissant une ressource qui capture la variance inhérente, l'ambiguïté et la diversité des perspectives humaines sur la sécurité des IA.

DICES est conçu selon trois principes fondamentaux : 1) l'inclusion d'informations démographiques granulaires sur les évaluateurs (par ex., groupe racial/ethnique, âge, genre), 2) une réplication élevée des évaluations par élément conversationnel pour garantir une puissance statistique, et 3) l'encodage des votes des évaluateurs sous forme de distributions démographiques pour permettre l'exploration de différentes stratégies d'agrégation. Cette conception va au-delà d'une unique « vérité terrain » et considère plutôt la sécurité comme une construction à multiples facettes, dépendante de la population.

1.1. Contributions

Les principales contributions du jeu de données DICES et de la recherche associée sont :

La diversité des évaluateurs comme caractéristique centrale : Passer de l'atténuation des « biais » à l'analyse et l'intégration de la « diversité » des opinions des évaluateurs.
Un cadre pour une analyse granulaire : Fournir une structure de jeu de données permettant d'explorer en profondeur comment les perceptions de la sécurité interagissent avec les catégories démographiques.
Un référentiel pour une évaluation nuancée : Établir DICES comme une ressource partagée pour évaluer les systèmes d'IA conversationnelle d'une manière qui respecte les points de vue divers, au-delà des scores de sécurité monolithiques.

2. Idée centrale & Enchaînement logique

Idée centrale : La faille fondamentale dans l'évaluation de la sécurité des IA n'est pas un manque de données, mais un manque de données représentatives et désagrégées. Considérer la sécurité comme une tâche de classification objective et binaire est une simplification dangereuse qui efface les nuances culturelles et peut conduire à des systèmes « sûrs » uniquement pour un groupe démographique dominant. DICES identifie correctement que la sécurité est une construction sociale, et son évaluation doit être statistique, et non déterministe.

Enchaînement logique : L'argumentation de l'article est tranchante : 1) L'ajustement fin actuel de la sécurité des LLM repose sur des jeux de données simplifiés. 2) Cette simplification ignore la variance subjective, ce qui est particulièrement problématique pour la sécurité – un concept socialement situé. 3) Par conséquent, nous avons besoin d'une nouvelle classe de jeu de données qui capture explicitement cette variance via la diversité démographique et une forte réplication des évaluateurs. 4) DICES fournit cela, permettant des analyses qui révèlent quels groupes trouvent quel contenu non sûr et dans quelle mesure. Cet enchaînement déconstruit logiquement le mythe d'une norme de sécurité universelle et le remplace par un cadre pour comprendre les paysages de la sécurité.

3. Forces & Limites

Forces :

Une conception qui change de paradigme : Le passage des étiquettes binaires aux distributions démographiques est sa caractéristique majeure. Il force le domaine à confronter la pluralité de la sécurité.
Rigueur statistique : Une réplication élevée par élément est non négociable pour une analyse démographique significative, et DICES le fait correctement. Il fournit la puissance statistique nécessaire pour aller au-delà des anecdotes.
Actionnable pour le développement de modèles : Il ne se contente pas de diagnostiquer un problème ; il fournit une structure (les distributions) qui peut directement éclairer un ajustement fin et des métriques d'évaluation plus nuancés, à l'instar de la quantification de l'incertitude qui a amélioré l'étalonnage des modèles.

Limites & Questions ouvertes :

Le « goulot d'étranglement démographique » : Bien qu'il inclue des données démographiques clés, le choix des catégories (race, âge, genre) est un point de départ. Il manque l'intersectionnalité (par ex., jeunes femmes noires) et d'autres axes comme le statut socio-économique, le handicap ou la géographie culturelle, qui sont tout aussi critiques pour une vision complète.
Le défi de l'opérationnalisation : L'article est léger sur le comment. Comment exactement un développeur de modèle devrait-il utiliser ces distributions ? Faut-il ajuster le modèle vers la moyenne ? Le mode ? Ou développer un système capable d'adapter son filtre de sécurité en fonction des données démographiques inférées de l'utilisateur ? Le passage de données riches à la pratique d'ingénierie est le prochain obstacle à franchir.
Un instantané statique : Les normes sociétales en matière de sécurité évoluent. Un jeu de données, aussi diversifié soit-il, est un instantané statique. Le cadre manque d'une voie claire pour une mise à jour continue et dynamique de ces perceptions de sécurité, un défi également rencontré par d'autres jeux de données éthiques statiques.

4. Perspectives actionnables

Pour les praticiens de l'IA et les responsables produits :

Audit immédiat : Utilisez le cadre DICES (distributions, pas moyennes) pour auditer vos classificateurs de sécurité actuels. Vous constaterez probablement qu'ils sont alignés sur une tranche démographique étroite. Cela représente un risque pour la réputation et le produit.
Redéfinissez votre métrique : Arrêtez de rapporter un unique « score de sécurité ». Rapportez un profil de sécurité : « Les sorties de ce modèle sont alignées avec les perceptions de sécurité du Groupe A avec un accord de X% et divergent du Groupe B sur les sujets Y et Z. » La transparence construit la confiance.
Investissez dans une sécurité adaptative : L'objectif final n'est pas un modèle parfaitement sûr unique, mais des modèles capables de comprendre le contexte, y compris celui de l'utilisateur. L'investissement en recherche devrait pivoter des filtres de sécurité monolithiques vers des mécanismes de sécurité conscients du contexte et potentiellement personnalisables, garantissant que le comportement du modèle est approprié pour son public. Les travaux sur l'alignement des valeurs en éthique de l'IA, comme ceux discutés par le Stanford Institute for Human-Centered AI (HAI), soulignent que l'alignement doit se faire avec une pluralité de valeurs humaines, et non un ensemble unique.

5. Cadre technique & Conception du jeu de données

Le jeu de données DICES est construit autour de conversations humain-bot évaluées pour leur sécurité par un large panel d'évaluateurs stratifié démographiquement. L'innovation clé réside dans la structure des données : au lieu de stocker une seule étiquette (par ex., « non sûr »), chaque élément conversationnel est associé à un tableau multidimensionnel d'évaluations ventilées par catégories démographiques.

Pour une conversation donnée $c_i$, le jeu de données ne fournit pas $label(c_i) \in \{0, 1\}$. Il fournit plutôt un ensemble de réponses d'évaluateurs $R_i = \{r_{i,1}, r_{i,2}, ..., r_{i,N}\}$, où chaque réponse $r_{i,j}$ est un tuple $(v_{i,j}, d_{i,j})$. Ici, $v_{i,j}$ est le verdict de sécurité (par ex., sur une échelle de Likert ou binaire), et $d_{i,j}$ est un vecteur encodant les attributs démographiques de l'évaluateur (par ex., $d_{i,j} = [\text{genre}=G1, \text{âge}=A2, \text{ethnicité}=E3]$).

5.1. Représentation mathématique des distributions d'évaluateurs

La puissance analytique centrale provient de l'agrégation de ces évaluations individuelles en distributions. Pour une tranche démographique spécifique $D_k$ (par ex., « Asiatique, 30-39 ans, Femme »), nous pouvons calculer la distribution des scores de sécurité pour la conversation $c_i$ :

$P(\text{score} = s | c_i, D_k) = \frac{|\{r \in R_i : v(r)=s \land d(r) \in D_k\}|}{|\{r \in R_i : d(r) \in D_k\}|}$

Cela permet de calculer non seulement le score de sécurité moyen $\mu_{i,k}$, mais plus important encore, des mesures de variance ($\sigma^2_{i,k}$), d'ambiguïté (par ex., l'entropie de la distribution $H(P)$) et de divergence entre groupes démographiques (par ex., la divergence de Kullback-Leibler $D_{KL}(P_{i,k} || P_{i,l})$). Cette formalisation mathématique est cruciale pour aller au-delà d'un simple moyennage.

6. Résultats expérimentaux & Analyse

Bien que l'extrait PDF fourni soit une prépublication en cours d'examen et ne contienne pas les résultats expérimentaux complets, le jeu de données décrit permet plusieurs analyses clés qui seraient typiquement présentées sous forme de graphiques :

Graphique 1 : Carte thermique des désaccords démographiques : Une visualisation matricielle montrant la divergence par paire (par ex., distance de Jensen-Shannon) dans les distributions de scores de sécurité entre différents groupes démographiques (par ex., Groupe A : Homme blanc 50+ vs Groupe B : Femme hispanique 18-29 ans) sur un échantillon de sujets conversationnels controversés. Ce graphique mettrait en évidence de manière frappante où les perceptions divergent le plus fortement.
Graphique 2 : Nuage de points Ambiguïté vs Consensus : Représentation de chaque élément conversationnel en fonction de son score de sécurité moyen (axe des x) et de l'entropie de sa distribution d'évaluations totale (axe des y). Cela séparerait les éléments universellement perçus comme sûrs/non sûrs (faible entropie, consensus élevé) de ceux qui sont très ambigus (entropie élevée).
Graphique 3 : Diagramme à barres de la désagrégation des performances du modèle : Comparaison des performances (par ex., score F1) d'un classificateur de sécurité standard lorsqu'il est évalué par rapport à la « vérité terrain » définie par différents groupes démographiques. Une baisse significative des performances pour certains groupes indiquerait que l'alignement du modèle est biaisé.

La force de DICES est qu'il génère les données nécessaires pour créer ces graphiques, faisant passer l'évaluation d'un seul nombre à un tableau de bord à multiples facettes.

7. Cadre d'analyse : Exemple d'étude de cas

Scénario : Une IA conversationnelle génère une blague en réponse à une requête utilisateur. Les données d'entraînement et l'évaluation de sécurité standard l'étiquettent comme « sûre » (humour).

Analyse basée sur DICES :

Récupération des données : Interrogez le jeu de données DICES pour des éléments conversationnels similaires impliquant de l'humour ou des blagues sur des sujets connexes.
Analyse des distributions : Examinez les distributions des évaluations de sécurité. Vous pourriez trouver :
- $P(\text{non sûr} | \text{âge}=18-29) = 0.15$
- $P(\text{non sûr} | \text{âge}=60+) = 0.65$
- $P(\text{non sûr} | \text{ethnicité}=E1) = 0.20$
- $P(\text{non sûr} | \text{ethnicité}=E2) = 0.55$
Interprétation : La « sécurité » de cette blague n'est pas un fait mais une fonction des données démographiques. La sortie du modèle, bien que techniquement conforme à une règle large de « sécurité », présente un risque élevé d'être perçue comme offensante par les personnes âgées et les membres du groupe ethnique E2.
Action : Une approche simpliste serait de bloquer toutes les blagues. Une approche nuancée, informée par DICES, pourrait être : a) Marquer ce type de contenu comme « à forte variance démographique », b) Développer un module de contexte utilisateur permettant au modèle d'ajuster son style d'humour, ou c) Fournir une note de transparence : « Cette réponse utilise l'humour. Les perceptions de l'humour varient considérablement selon les cultures et les groupes d'âge. »

Cette étude de cas illustre comment DICES fait passer la question de « Est-ce sûr ? » à « Sûr pour qui, et dans quelles conditions ? ».

8. Applications futures & Axes de recherche

Le cadre DICES ouvre plusieurs voies critiques pour les travaux futurs :

Modèles de sécurité personnalisés et adaptatifs : L'aboutissement logique n'est pas un filtre de sécurité unique universel, mais des modèles capables d'inférer le contexte utilisateur pertinent (avec des garanties de confidentialité appropriées) et d'adapter leurs seuils de sécurité ou leurs stratégies de génération de contenu en conséquence. Cela s'aligne sur la tendance plus large du ML vers la personnalisation, comme on le voit dans les systèmes de recommandation.
Évaluation dynamique et continue : Développer des méthodes pour mettre à jour continuellement et en quasi-temps réel les jeux de données de perceptions de sécurité comme DICES, capturant l'évolution des normes sociales et les controverses émergentes, à l'instar de la mise à jour continue des modèles de langage eux-mêmes.
Outils d'analyse intersectionnelle : Étendre le cadre démographique pour mieux capturer les identités intersectionnelles, en allant au-delà des catégories indépendantes pour comprendre les expériences cumulées des individus appartenant à plusieurs groupes minoritaires.
Intégration avec l'apprentissage par renforcement à partir de retours humains (RLHF) : Utiliser les retours humains désagrégés de jeux de données comme DICES pour entraîner des modèles de récompense sensibles à l'alignement démographique, empêchant l'optimisation pour une notion unique, et potentiellement étroite, de dialogue « bon » ou « sûr ». Cela répond à une limitation connue du RLHF standard, comme souligné dans les recherches d'Anthropic et DeepMind sur la supervision scalable.
Expansion mondiale : Étendre la collecte de données à un niveau véritablement mondial, englobant les cultures et langues non occidentales, pour lutter contre le biais anglo-centrique prévalant dans de nombreuses ressources de sécurité des IA.

9. Références

Aroyo, L., Taylor, A. S., Díaz, M., Homan, C. M., Parrish, A., Serapio-García, G., Prabhakaran, V., & Wang, D. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
Bommasani, R., et al. (2021). On the Opportunities and Risks of Foundation Models. Stanford Center for Research on Foundation Models (CRFM).
Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems (NeurIPS).
Stanford Institute for Human-Centered AI (HAI). (2023). The AI Index Report 2023. Stanford University.
Weidinger, L., et al. (2021). Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (Cité comme exemple d'un cadre – CycleGAN – qui gère des données non appariées et multimodales, analogue à DICES gérant des jugements humains divers et non alignés).