مجموعه‌داده DICES: تنوع در ارزیابی ایمنی هوش مصنوعی گفتگو‌محور

1. مقدمه

گسترش سیستم‌های هوش مصنوعی گفتگو‌محور مبتنی بر مدل‌های زبانی بزرگ (LLM)، ارزیابی ایمنی را به یک نگرانی حیاتی تبدیل کرده است. رویکردهای سنتی اغلب بر مجموعه‌داده‌هایی متکی هستند که جدایی دودویی روشنی بین محتوای «ایمن» و «ناایمن» قائل می‌شوند، که ذاتاً ماهیت ذهنی و وابسته به فرهنگ ایمنی را بیش از حد ساده‌سازی می‌کند. مجموعه‌داده DICES (تنوع در ارزیابی هوش مصنوعی گفتگو‌محور برای ایمنی) که توسط پژوهشگران گوگل ریسرچ، دانشگاه سیتی لندن و دانشگاه کمبریج معرفی شده است، این شکاف را با ارائه منبعی که واریانس ذاتی، ابهام و تنوع دیدگاه‌های انسانی درباره ایمنی هوش مصنوعی را ثبت می‌کند، برطرف می‌سازد.

DICES بر اساس سه اصل بنیادی طراحی شده است: ۱) گنجاندن اطلاعات جمعیتی ریزبینانه درباره ارزیابان (مانند گروه نژادی/قومی، سن، جنسیت)، ۲) تکرار بالای ارزیابی‌ها برای هر آیتم گفتگو برای تضمین توان آماری، و ۳) کدگذاری آرای ارزیابان به صورت توزیع در میان گروه‌های جمعیتی برای امکان‌پذیر ساختن بررسی استراتژی‌های مختلف تجمیع. این طراحی فراتر از یک «حقیقت مطلق» واحد رفته و در عوض، ایمنی را به عنوان سازه‌ای چندوجهی و وابسته به جمعیت در نظر می‌گیرد.

1.1. دستاوردها

دستاوردهای اصلی مجموعه‌داده DICES و پژوهش همراه آن عبارتند از:

تنوع ارزیابان به عنوان یک ویژگی محوری: تغییر تمرکز از کاهش «سوگیری» به پذیرش و تحلیل «تنوع» در نظرات ارزیابان.
چارچوبی برای تحلیل ریزبینانه: ارائه ساختاری برای مجموعه‌داده که امکان بررسی عمیق چگونگی تقاطع ادراکات ایمنی با دسته‌بندی‌های جمعیتی را فراهم می‌کند.
معیاری برای ارزیابی ظریف: تثبیت DICES به عنوان یک منبع مشترک برای ارزیابی سیستم‌های هوش مصنوعی گفتگو‌محور به گونه‌ای که دیدگاه‌های متنوع را محترم شمرده و فراتر از نمرات ایمنی یکپارچه حرکت کند.

2. بینش اصلی و جریان منطقی

بینش اصلی: نقص بنیادی در ارزیابی ایمنی هوش مصنوعی جریان اصلی، کمبود داده نیست، بلکه کمبود داده‌های نماینده و تفکیک‌شده است. در نظر گرفتن ایمنی به عنوان یک وظیفه طبقه‌بندی عینی و دودویی، یک ساده‌سازی خطرناک است که ظرافت‌های فرهنگی را محو کرده و می‌تواند به سیستم‌هایی منجر شود که تنها برای یک جمعیت غالب «ایمن» هستند. DICES به درستی شناسایی می‌کند که ایمنی یک سازه اجتماعی است و ارزیابی آن باید آماری باشد، نه قطعی.

جریان منطقی: استدلال مقاله بسیار برنده است: ۱) تنظیم دقیق ایمنی مدل‌های زبانی بزرگ کنونی بر مجموعه‌داده‌های ساده‌شده متکی است. ۲) این ساده‌سازی واریانس ذهنی را نادیده می‌گیرد که به ویژه برای ایمنی — که مفهومی وابسته به بافت اجتماعی است — مشکل‌ساز است. ۳) بنابراین، ما به دسته جدیدی از مجموعه‌داده نیاز داریم که این واریانس را به صراحت از طریق تنوع جمعیتی و تکرار بالای ارزیابان ثبت کند. ۴) DICES این نیاز را برآورده می‌سازد و تحلیل‌هایی را ممکن می‌کند که نشان می‌دهد کدام گروه‌ها کدام محتوا را ناایمن می‌دانند و تا چه حد. این جریان منطقی، افسانه یک استاندارد ایمنی جهانی را از بین برده و آن را با چارچوبی برای درک چشم‌اندازهای ایمنی جایگزین می‌کند.

3. نقاط قوت و ضعف

نقاط قوت:

طراحی تغییردهنده پارادایم: حرکت از برچسب‌های دودویی به توزیع‌های جمعیتی، ویژگی برجسته آن است. این امر رشته را وادار می‌کند تا با کثرت‌گرایی ایمنی روبرو شود.
دقت آماری: تکرار بالا برای هر آیتم برای تحلیل جمعیتی معنادار غیرقابل مذاکره است و DICES این را به درستی انجام می‌دهد. این مجموعه‌داده توان آماری لازم برای حرکت فراتر از حکایت‌های فردی را فراهم می‌کند.
قابل اجرا برای توسعه مدل: این مجموعه‌داده تنها یک مشکل را تشخیص نمی‌دهد؛ بلکه ساختاری (توزیع‌ها) ارائه می‌دهد که می‌تواند مستقیماً تنظیم دقیق ظریف‌تر و معیارهای ارزیابی را اطلاع رسانی کند، مشابه آنکه سنجش عدم قطعیت، کالیبراسیون مدل را بهبود بخشید.

نقاط ضعف و پرسش‌های باز:

«گلوگاه جمعیتی»: اگرچه این مجموعه‌داده شامل جمعیت‌شناسی‌های کلیدی است، اما انتخاب دسته‌بندی‌ها (نژاد، سن، جنسیت) یک نقطه شروع است. این مجموعه‌داده تقاطع‌ها (مانند زنان جوان سیاه‌پوست) و محورهای دیگر مانند وضعیت اقتصادی-اجتماعی، معلولیت یا جغرافیای فرهنگی را از دست می‌دهد که برای تصویر کامل به همان اندازه حیاتی هستند.
چالش عملیاتی‌سازی: مقاله در مورد چگونگی اجرا کم‌گویی کرده است. یک توسعه‌دهنده مدل دقیقاً چگونه باید از این توزیع‌ها استفاده کند؟ آیا باید مدل را بر اساس میانگین تنظیم دقیق کرد؟ مد؟ یا سیستمی توسعه داد که بتواند فیلتر ایمنی خود را بر اساس جمعیت‌شناسی استنباط‌شده کاربر تطبیق دهد؟ گام از داده غنی به عمل مهندسی، صخره بعدی برای صعود است.
تصویر ایستا: هنجارهای اجتماعی درباره ایمنی تکامل می‌یابند. یک مجموعه‌داده، هرچند متنوع، یک تصویر ایستا است. این چارچوب فاقد مسیری روشن برای به‌روزرسانی پیوسته و پویای این ادراکات ایمنی است، چالشی که سایر مجموعه‌داده‌های اخلاقی ایستا نیز با آن مواجه هستند.

4. بینش‌های کاربردی

برای متخصصان هوش مصنوعی و رهبران محصول:

بازرسی فوری: از چارچوب DICES (توزیع‌ها، نه میانگین‌ها) برای بازرسی طبقه‌بندهای ایمنی فعلی خود استفاده کنید. به احتمال زیاد خواهید دید که آن‌ها با یک بخش جمعیتی محدود همسو هستند. این یک ریسک اعتباری و محصولی است.
تعریف مجدد معیار خود: گزارش دادن یک «نمره ایمنی» واحد را متوقف کنید. یک پروفایل ایمنی گزارش دهید: «خروجی‌های این مدل با ادراکات ایمنی گروه A با توافق X% همسو است و در موضوعات Y و Z از گروه B فاصله دارد.» شفافیت اعتماد می‌سازد.
سرمایه‌گذاری در ایمنی تطبیقی: هدف نهایی یک مدل کاملاً ایمن واحد نیست، بلکه مدل‌هایی هستند که بتوانند زمینه، از جمله زمینه کاربر را درک کنند. سرمایه‌گذاری پژوهشی باید از فیلترهای ایمنی یکپارچه به سمت مکانیزم‌های ایمنی آگاه از زمینه و بالقوه شخصی‌سازی‌شده برای کاربر تغییر جهت دهد تا اطمینان حاصل شود که رفتار مدل برای مخاطب آن مناسب است. کار روی همسویی ارزش‌ها در اخلاق هوش مصنوعی، مانند آنچه در مؤسسه هوش مصنوعی انسان‌محور استنفورد (HAI) بحث شده است، تأکید می‌کند که همسویی باید با کثرت ارزش‌های انسانی باشد، نه یک مجموعه واحد.

5. چارچوب فنی و طراحی مجموعه‌داده

مجموعه‌داده DICES حول گفتگوهای انسان-ربات ساخته شده است که توسط گروه بزرگی از ارزیابان با لایه‌بندی جمعیتی از نظر ایمنی ارزیابی می‌شوند. نوآوری کلیدی در ساختار داده است: به جای ذخیره یک برچسب واحد (مانند «ناایمن»)، هر آیتم گفتگو با یک آرایه چندبعدی از ارزیابی‌ها مرتبط است که بر اساس سطل‌های جمعیتی تفکیک شده است.

برای یک گفتگوی معین $c_i$، مجموعه‌داده $label(c_i) \in \{0, 1\}$ را ارائه نمی‌دهد. در عوض، مجموعه‌ای از پاسخ‌های ارزیابان $R_i = \{r_{i,1}, r_{i,2}, ..., r_{i,N}\}$ را ارائه می‌دهد، که در آن هر پاسخ $r_{i,j}$ یک تاپل $(v_{i,j}, d_{i,j})$ است. در اینجا، $v_{i,j}$ حکم ایمنی است (مثلاً در مقیاس لیکرت یا دودویی)، و $d_{i,j}$ یک بردار است که ویژگی‌های جمعیتی ارزیاب را کدگذاری می‌کند (مثلاً $d_{i,j} = [\text{جنسیت}=G1, \text{سن}=A2, \text{قومیت}=E3]$).

5.1. نمایش ریاضی توزیع‌های ارزیابان

قدرت تحلیلی اصلی از تجمیع این ارزیابی‌های فردی به توزیع‌ها ناشی می‌شود. برای یک بخش جمعیتی خاص $D_k$ (مثلاً «آسیایی، ۳۹-۳۰ سال، زن»)، می‌توانیم توزیع نمرات ایمنی برای گفتگوی $c_i$ را محاسبه کنیم:

$P(\text{نمره} = s | c_i, D_k) = \frac{|\{r \in R_i : v(r)=s \land d(r) \in D_k\}|}{|\{r \in R_i : d(r) \in D_k\}|}$

این امر نه تنها امکان محاسبه میانگین نمره ایمنی $\mu_{i,k}$، بلکه مهم‌تر از آن، اندازه‌گیری‌های واریانس ($\sigma^2_{i,k}$)، ابهام (مانند آنتروپی توزیع $H(P)$) و واگرایی بین گروه‌های جمعیتی (مانند واگرایی کولبک-لایبلر $D_{KL}(P_{i,k} || P_{i,l})$) را فراهم می‌کند. این صورتبندی ریاضی برای حرکت فراتر از میانگین‌گیری ساده‌لوحانه حیاتی است.

6. نتایج تجربی و تحلیل

اگرچه چکیده PDF ارائه‌شده یک پیش‌چاپ تحت بررسی است و حاوی نتایج تجربی کامل نیست، مجموعه‌داده توصیف‌شده چندین تحلیل کلیدی را ممکن می‌سازد که معمولاً در نمودارها ارائه می‌شوند:

نمودار ۱: نقشه حرارتی اختلاف جمعیتی: یک نمایش ماتریسی که واگرایی زوجی (مانند فاصله جنسن-شانون) در توزیع‌های نمره ایمنی بین گروه‌های جمعیتی مختلف (مثلاً گروه A: مرد سفیدپوست ۵۰+ سال در مقابل گروه B: زن هیسپانیک ۲۹-۱۸ سال) در نمونه‌ای از موضوعات بحث‌برانگیز گفتگو را نشان می‌دهد. این نمودار به وضوح نشان می‌دهد که ادراکات در کجا بیشترین واگرایی را دارند.
نمودار ۲: نمودار پراکندگی ابهام در مقابل اجماع: ترسیم هر آیتم گفتگو بر اساس میانگین نمره ایمنی آن (محور x) و آنتروپی توزیع کل ارزیابی آن (محور y). این نمودار آیتم‌هایی را که به طور جهانی ایمن/ناایمن دیده می‌شوند (آنتروپی کم، اجماع بالا) از آن‌هایی که بسیار مبهم هستند (آنتروپی بالا) جدا می‌کند.
نمودار ۳: نمودار میله‌ای تفکیک عملکرد مدل: مقایسه عملکرد (مانند نمره F1) یک طبقه‌بند ایمنی استاندارد هنگام ارزیابی در برابر «حقیقت مطلق» تعریف‌شده توسط گروه‌های جمعیتی مختلف. افت عملکرد قابل توجه برای گروه‌های خاص نشان می‌دهد که همسویی مدل کج است.

قدرت DICES در این است که داده‌های لازم برای ایجاد این نمودارها را تولید می‌کند و ارزیابی را از یک عدد واحد به یک داشبورد چندوجهی منتقل می‌کند.

7. چارچوب تحلیل: مطالعه موردی نمونه

سناریو: یک هوش مصنوعی گفتگو‌محور در پاسخ به درخواست کاربر یک جوک تولید می‌کند. داده‌های آموزشی و ارزیابی ایمنی استاندارد آن را به عنوان «ایمن» (طنز) برچسب می‌زنند.

تحلیل مبتنی بر DICES:

بازیابی داده: پرس‌وجو در مجموعه‌داده DICES برای آیتم‌های گفتگوی مشابه شامل طنز یا جوک در موضوعات مرتبط.
تحلیل توزیع: بررسی توزیع‌های نمره‌دهی ایمنی. ممکن است بیابید:
- $P(\text{ناایمن} | \text{سن}=۲۹-۱۸) = 0.15$
- $P(\text{ناایمن} | \text{سن}=۶۰+) = 0.65$
- $P(\text{ناایمن} | \text{قومیت}=E1) = 0.20$
- $P(\text{ناایمن} | \text{قومیت}=E2) = 0.55$
تفسیر: «ایمنی» این جوک یک واقعیت نیست، بلکه تابعی از جمعیت‌شناسی است. خروجی مدل، اگرچه از نظر فنی با یک قاعده گسترده «ایمنی» مطابقت دارد، اما خطر بالایی دارد که توسط سالمندان و اعضای گروه قومی E2 توهین‌آمیز تلقی شود.
اقدام: یک رویکرد ساده‌لوحانه این است که همه جوک‌ها مسدود شوند. یک رویکرد ظریف، آگاه‌شده از DICES، می‌تواند این باشد که: الف) این نوع محتوا را به عنوان «دارای واریانس جمعیتی بالا» علامت‌گذاری کند، ب) یک ماژول زمینه کاربری توسعه دهد که به مدل اجازه دهد سبک طنز خود را تنظیم کند، یا ج) یک یادداشت شفافیت ارائه دهد: «این پاسخ از طنز استفاده می‌کند. ادراک طنز در فرهنگ‌ها و گروه‌های سنی مختلف به شدت متفاوت است.»

این مطالعه موردی نشان می‌دهد که چگونه DICES سؤال را از «آیا این ایمن است؟» به «ایمن برای چه کسی، و تحت چه شرایطی؟» تغییر می‌دهد.

8. کاربردهای آتی و جهت‌های پژوهشی

چارچوب DICES چندین مسیر حیاتی برای کار آینده می‌گشاید:

مدل‌های ایمنی شخصی‌سازی‌شده و تطبیقی: نقطه پایان منطقی یک فیلتر ایمنی یک‌اندازه-برای-همه نیست، بلکه مدل‌هایی هستند که می‌توانند زمینه مرتبط کاربر را (با رعایت حریم خصوصی مناسب) استنباط کرده و آستانه‌های ایمنی یا استراتژی‌های تولید محتوای خود را بر این اساس تطبیق دهند. این امر با روند گسترده‌تر در یادگیری ماشین به سمت شخصی‌سازی همسو است، همانطور که در سیستم‌های توصیه‌گر دیده می‌شود.
ارزیابی پویا و پیوسته: توسعه روش‌هایی برای به‌روزرسانی پیوسته و تقریباً بلادرنگ مجموعه‌داده‌های ادراک ایمنی مانند DICES، برای ثبت هنجارهای اجتماعی در حال تکامل و مناقشات نوظهور، مشابه آنکه خود مدل‌های زبانی به طور پیوسته به‌روز می‌شوند.
ابزارهای تحلیل تقاطعی: گسترش چارچوب جمعیتی برای ثبت بهتر هویت‌های تقاطعی، حرکت فراتر از دسته‌بندی‌های مستقل برای درک تجربیات ترکیبی افراد متعلق به چندین گروه اقلیت.
ادغام با یادگیری تقویتی از بازخورد انسانی (RLHF): استفاده از بازخورد انسانی تفکیک‌شده از مجموعه‌داده‌هایی مانند DICES برای آموزش مدل‌های پاداش که به همسویی جمعیتی حساس هستند، و جلوگیری از بهینه‌سازی برای یک مفهوم واحد و بالقوه محدود از گفتگوی «خوب» یا «ایمن». این امر به یک محدودیت شناخته‌شده در RLHF استاندارد می‌پردازد، همانطور که در پژوهش‌های Anthropic و DeepMind درباره نظارت مقیاس‌پذیر برجسته شده است.
گسترش جهانی: مقیاس‌دهی جمع‌آوری داده به سطحی واقعاً جهانی، شامل فرهنگ‌ها و زبان‌های غیرغربی، برای مبارزه با سوگیری انگلومحور رایج در بسیاری از منابع ایمنی هوش مصنوعی.

9. منابع

Aroyo, L., Taylor, A. S., Díaz, M., Homan, C. M., Parrish, A., Serapio-García, G., Prabhakaran, V., & Wang, D. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
Bommasani, R., et al. (2021). On the Opportunities and Risks of Foundation Models. Stanford Center for Research on Foundation Models (CRFM).
Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems (NeurIPS).
Stanford Institute for Human-Centered AI (HAI). (2023). The AI Index Report 2023. Stanford University.
Weidinger, L., et al. (2021). Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (به عنوان نمونه‌ای از یک چارچوب — CycleGAN — که داده‌های جفت‌نشده و چندوجهی را مدیریت می‌کند، مشابه مدیریت DICES از قضاوت‌های انسانی متنوع و غیرهم‌تراز، ذکر شده است).