DICES 데이터셋: 대화형 AI 안전성 평가를 위한 다양성

1. 서론

대규모 언어 모델(LLM) 기반 대화형 AI 시스템의 확산으로 안전성 평가는 중요한 관심사가 되었습니다. 기존 접근 방식은 종종 '안전'과 '불안전' 콘텐츠를 명확히 이분화한 데이터셋에 의존하는데, 이는 본질적으로 안전성의 주관적이고 문화적으로 위치한 특성을 지나치게 단순화합니다. Google Research, 런던 시립대학교, 케임브리지 대학교 연구진이 소개한 DICES(Diversity In Conversational AI Evaluation for Safety) 데이터셋은 AI 안전성에 대한 인간 관점의 고유한 분산, 모호성, 다양성을 포착하는 자원을 제공함으로써 이러한 격차를 해소합니다.

DICES는 세 가지 핵심 원칙으로 설계되었습니다: 1) 평가자에 대한 세분화된 인구통계학적 정보(예: 인종/민족 그룹, 연령, 성별) 포함, 2) 통계적 검정력을 보장하기 위한 대화 항목별 높은 평가 반복, 3) 다양한 집계 전략 탐색을 가능하게 하기 위해 평가자 투표를 인구통계학적 특성별 분포로 인코딩. 이 설계는 단일한 '정답'을 넘어서 안전성을 다면적이고 집단에 의존적인 구성체로 취급합니다.

1.1. 기여

DICES 데이터셋과 관련 연구의 주요 기여는 다음과 같습니다:

핵심 기능으로서의 평가자 다양성: 평가자 의견에서 '편향'을 완화하는 데서 벗어나 '다양성'을 수용하고 분석하는 데 초점을 전환.
세분화된 분석을 위한 프레임워크: 안전성 인식이 인구통계학적 범주와 어떻게 교차하는지 심층 탐구를 가능하게 하는 데이터셋 구조 제공.
미묘한 평가를 위한 벤치마크: 단일한 안전성 점수를 넘어 다양한 관점을 존중하는 방식으로 대화형 AI 시스템을 평가하기 위한 공유 자원으로 DICES 확립.

2. 핵심 통찰 및 논리적 흐름

핵심 통찰: 주류 AI 안전성 평가의 근본적 결함은 데이터 부족이 아니라, 대표성 있고 분해된 데이터의 부족입니다. 안전성을 객관적 이진 분류 작업으로 취급하는 것은 문화적 뉘앙스를 지우고 지배적인 인구 집단에만 '안전한' 시스템으로 이어질 수 있는 위험한 지나친 단순화입니다. DICES는 안전성이 사회적 구성체이며, 그 평가는 결정론적이 아닌 통계적이어야 한다는 점을 올바르게 지적합니다.

논리적 흐름: 논문의 주장은 날카롭습니다: 1) 현재 LLM 안전성 미세 조정은 단순화된 데이터셋에 의존합니다. 2) 이 단순화는 주관적 분산을 무시하는데, 이는 사회적으로 위치한 개념인 안전성에 특히 문제가 됩니다. 3) 따라서, 인구통계학적 다양성과 높은 평가자 반복을 통해 이러한 분산을 명시적으로 포착하는 새로운 종류의 데이터셋이 필요합니다. 4) DICES는 이를 제공하여, 어떤 그룹이 어떤 콘텐츠를 어느 정도로 불안전하다고 느끼는지 드러내는 분석을 가능하게 합니다. 이 흐름은 보편적 안전성 기준이라는 신화를 논리적으로 해체하고 안전성 지형을 이해하기 위한 프레임워크로 대체합니다.

3. 강점과 한계

강점:

패러다임 전환적 설계: 이진 레이블에서 인구통계학적 분포로의 전환이 결정적 특징입니다. 이는 해당 분야가 안전성의 다원성을 직면하도록 강제합니다.
통계적 엄밀성: 의미 있는 인구통계학적 분석을 위해서는 항목당 높은 반복은 필수이며, DICES는 이를 올바르게 구현했습니다. 일화적 증거를 넘어서는 데 필요한 통계적 검정력을 제공합니다.
모델 개발에 실행 가능: 단순히 문제를 진단하는 것이 아니라, 불확실성 정량화가 모델 보정을 개선한 방식과 유사하게, 더 미묘한 미세 조정 및 평가 지표에 직접적으로 정보를 제공할 수 있는 구조(분포)를 제공합니다.

한계 및 미해결 질문:

'인구통계학적 병목현상': 핵심 인구통계학적 요소를 포함하지만, 범주(인종, 연령, 성별) 선택은 시작점에 불과합니다. 교차성(예: 젊은 흑인 여성)과 사회경제적 지위, 장애, 문화적 지리와 같은 다른 축을 놓치고 있으며, 이는 전체 그림을 위해 동등하게 중요합니다.
운용화의 과제: 논문은 방법론에 대해 가볍습니다. 모델 개발자는 이 분포를 정확히 어떻게 사용해야 합니까? 평균에 맞춰 미세 조정해야 합니까? 최빈값에 맞춰야 합니까? 아니면 추론된 사용자 인구통계학적 특성에 기반해 안전성 필터를 조정할 수 있는 시스템을 개발해야 합니까? 풍부한 데이터에서 엔지니어링 실무로 가는 단계는 다음으로 넘어야 할 벽입니다.
정적 스냅샷: 안전성에 대한 사회적 규범은 진화합니다. 아무리 다양해도 데이터셋은 정적 스냅샷입니다. 이 프레임워크는 이러한 안전성 인식을 지속적이고 동적으로 업데이트하는 명확한 경로가 부족하며, 이는 다른 정적 윤리 데이터셋이 직면한 과제이기도 합니다.

4. 실행 가능한 통찰

AI 실무자 및 제품 책임자를 위해:

즉시 감사: DICES 프레임워크(평균이 아닌 분포)를 사용하여 현재 안전성 분류기를 감사하십시오. 아마도 그것이 좁은 인구통계학적 조각에 맞춰져 있음을 발견할 것입니다. 이는 평판 및 제품 위험입니다.
지표 재정의: 단일 '안전성 점수' 보고를 중단하십시오. 안전성 프로필을 보고하십시오: "이 모델의 출력은 A 그룹의 안전성 인식과 X% 일치하며, Y 및 Z 주제에서 B 그룹과 차이가 있습니다." 투명성은 신뢰를 구축합니다.
적응형 안전성에 투자: 최종 목표는 하나의 완벽하게 안전한 모델이 아니라, 사용자 맥락을 포함한 맥락을 이해할 수 있는 모델입니다. 연구 투자는 단일한 안전성 필터에서 맥락 인식 및 잠재적으로 사용자 맞춤형 안전성 메커니즘으로 전환되어야 하며, 이는 모델의 행동이 청중에게 적절하도록 보장합니다. 스탠퍼드 인간 중심 AI 연구소(HAI)에서 논의된 바와 같이, AI 윤리에서의 가치 정렬 작업은 정렬이 단일한 집합이 아닌 다수의 인간 가치와 이루어져야 함을 강조합니다.

5. 기술 프레임워크 및 데이터셋 설계

DICES 데이터셋은 인간-봇 대화를 중심으로 구성되며, 이는 대규모의 인구통계학적으로 계층화된 평가자 풀에 의해 안전성 평가를 받습니다. 핵심 혁신은 데이터 구조에 있습니다: 단일 레이블(예: '불안전')을 저장하는 대신, 각 대화 항목은 인구통계학적 버킷별로 분해된 다차원 평가 배열과 연결됩니다.

주어진 대화 $c_i$에 대해, 데이터셋은 $label(c_i) \in \{0, 1\}$를 제공하지 않습니다. 대신, 평가자 응답 집합 $R_i = \{r_{i,1}, r_{i,2}, ..., r_{i,N}\}$를 제공하며, 여기서 각 응답 $r_{i,j}$는 튜플 $(v_{i,j}, d_{i,j})$입니다. 여기서 $v_{i,j}$는 안전성 판정(예: 리커트 척도 또는 이진)이고, $d_{i,j}$는 평가자의 인구통계학적 속성을 인코딩하는 벡터입니다(예: $d_{i,j} = [\text{성별}=G1, \text{연령}=A2, \text{민족}=E3]$).

5.1. 평가자 분포의 수학적 표현

핵심 분석력은 이러한 개별 평가를 분포로 집계하는 데서 나옵니다. 특정 인구통계학적 조각 $D_k$(예: '아시아인, 30-39세, 여성')에 대해, 대화 $c_i$에 대한 안전성 점수 분포를 계산할 수 있습니다:

$P(\text{점수} = s | c_i, D_k) = \frac{|\{r \in R_i : v(r)=s \land d(r) \in D_k\}|}{|\{r \in R_i : d(r) \in D_k\}|}$

이를 통해 평균 안전성 점수 $\mu_{i,k}$뿐만 아니라, 더 중요한 분산 측정($\sigma^2_{i,k}$), 모호성(예: 분포의 엔트로피 $H(P)$), 그리고 인구통계학적 그룹 간 발산(예: KL-발산 $D_{KL}(P_{i,k} || P_{i,l})$)을 계산할 수 있습니다. 이 수학적 형식화는 지나치게 단순한 평균화를 넘어서는 데 중요합니다.

6. 실험 결과 및 차트 설명

제공된 PDF 발췌문은 심사 중인 프리프린트이며 완전한 실험 결과를 포함하지 않지만, 설명된 데이터셋은 일반적으로 차트로 제시될 몇 가지 핵심 분석을 가능하게 합니다:

차트 1: 인구통계학적 불일치 히트맵: 논란의 여지가 있는 대화 주제 샘플에 걸쳐 서로 다른 인구통계학적 그룹(예: 그룹 A: 50세 이상 백인 남성 vs 그룹 B: 18-29세 히스패닉 여성) 간 안전성 점수 분포의 쌍별 발산(예: 젠센-섀넌 거리)을 보여주는 행렬 시각화. 이 차트는 인식이 가장 강하게 갈라지는 지점을 생생히 강조할 것입니다.
차트 2: 모호성 대 합의 산점도: 각 대화 항목을 평균 안전성 점수(x축)와 총 평가 분포의 엔트로피(y축)를 기준으로 도표화. 이는 보편적으로 안전/불안전하다고 보는 항목(낮은 엔트로피, 높은 합의)과 매우 모호한 항목(높은 엔트로피)을 분리할 것입니다.
차트 3: 모델 성능 분해 막대 차트: 표준 안전성 분류기의 성능(예: F1 점수)을 서로 다른 인구통계학적 그룹에 의해 정의된 '정답'에 대해 평가할 때 비교. 특정 그룹에 대한 성능의 유의미한 하락은 모델의 정렬이 치우쳐 있음을 나타냅니다.

DICES의 힘은 이러한 차트를 생성하는 데 필요한 데이터를 생성하여 평가를 단일 숫자에서 다면적 대시보드로 이동시킨다는 점입니다.

7. 분석 프레임워크: 예시 사례 연구

시나리오: 대화형 AI가 사용자 프롬프트에 대한 응답으로 농담을 생성합니다. 훈련 데이터와 표준 안전성 평가는 이를 '안전'(유머)으로 레이블합니다.

DICES 기반 분석:

데이터 검색: 관련 주제에 대한 유머나 농담을 포함하는 유사한 대화 항목을 DICES 데이터셋에서 쿼리합니다.
분포 분석: 안전성 평가 분포를 검토합니다. 다음과 같은 결과를 발견할 수 있습니다:
- $P(\text{불안전} | \text{연령}=18-29) = 0.15$
- $P(\text{불안전} | \text{연령}=60+) = 0.65$
- $P(\text{불안전} | \text{민족}=E1) = 0.20$
- $P(\text{불안전} | \text{민족}=E2) = 0.55$
해석: 이 농담의 '안전성'은 사실이 아니라 인구통계학적 특성의 함수입니다. 모델의 출력은 기술적으로 광범위한 '안전성' 규칙을 준수하지만, 노년층과 민족 그룹 E2 구성원에게 불쾌감을 줄 수 있는 높은 위험을 안고 있습니다.
조치: 단순한 접근법은 모든 농담을 차단하는 것입니다. DICES에 기반한 미묘한 접근법은 다음과 같을 수 있습니다: a) 이 유형의 콘텐츠를 '높은 인구통계학적 분산'으로 플래그 지정, b) 모델이 유머 스타일을 조정할 수 있도록 하는 사용자 맥락 모듈 개발, 또는 c) 투명성 메모 제공: "이 응답은 유머를 사용합니다. 유머에 대한 인식은 문화와 연령대에 따라 크게 다릅니다."

이 사례 연구는 DICES가 질문을 "이것이 안전한가?"에서 "누구에게 안전하며, 어떤 조건에서 안전한가?"로 전환시키는 방법을 보여줍니다.

8. 향후 응용 및 연구 방향

DICES 프레임워크는 향후 작업을 위한 몇 가지 중요한 방향을 엽니다:

개인화 및 적응형 안전성 모델: 논리적 종착점은 일률적인 안전성 필터가 아니라, 관련 사용자 맥락을 추론하고(적절한 개인정보 보호 조치와 함께) 그에 따라 안전성 임계값이나 콘텐츠 생성 전략을 조정할 수 있는 모델입니다. 이는 추천 시스템에서 볼 수 있는 것처럼 ML의 더 넓은 개인화 추세와 일치합니다.
동적 및 지속적 평가: 언어 모델 자체가 지속적으로 업데이트되는 방식과 유사하게, 진화하는 사회적 규범과 새롭게 부상하는 논란을 포착하기 위해 DICES와 같은 안전성 인식 데이터셋을 준실시간으로 지속적으로 업데이트하는 방법 개발.
교차성 분석 도구: 인구통계학적 프레임워크를 확장하여 교차성 정체성을 더 잘 포착하고, 독립적인 범주를 넘어 여러 소수 집단에 속한 개인의 복합적 경험을 이해합니다.
인간 피드백 강화 학습(RLHF)과의 통합: DICES와 같은 데이터셋의 분해된 인간 피드백을 사용하여 인구통계학적 정렬에 민감한 보상 모델을 훈련시켜, 단일하고 잠재적으로 좁은 '좋은' 또는 '안전한' 대화 개념에 대한 최적화를 방지합니다. 이는 Anthropic과 DeepMind의 확장 가능한 감독에 관한 연구에서 강조된 바와 같이, 표준 RLHF의 알려진 한계를 해결합니다.
글로벌 확장: 데이터 수집을 진정한 글로벌 수준으로 확장하여 비서구 문화와 언어를 포함시켜, 많은 AI 안전성 자원에서 만연한 앵글로 중심 편향에 대항합니다.

9. 참고문헌

Aroyo, L., Taylor, A. S., Díaz, M., Homan, C. M., Parrish, A., Serapio-García, G., Prabhakaran, V., & Wang, D. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
Bommasani, R., et al. (2021). On the Opportunities and Risks of Foundation Models. Stanford Center for Research on Foundation Models (CRFM).
Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems (NeurIPS).
Stanford Institute for Human-Centered AI (HAI). (2023). The AI Index Report 2023. Stanford University.
Weidinger, L., et al. (2021). Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (DICES가 다양한, 정렬되지 않은 인간 판단을 처리하는 방식과 유사하게, 짝이 지어지지 않은 다중 모드 데이터를 처리하는 CycleGAN 프레임워크의 예시로 인용됨).