1. مقدمه
گسترش سیستمهای هوش مصنوعی گفتگومحور مبتنی بر مدلهای زبانی بزرگ (LLM)، ارزیابی ایمنی را به یک نگرانی حیاتی تبدیل کرده است. رویکردهای سنتی اغلب بر مجموعهدادههایی متکی هستند که جدایی دودویی روشنی بین محتوای «ایمن» و «ناایمن» قائل میشوند، که ذاتاً ماهیت ذهنی و وابسته به فرهنگ ایمنی را بیش از حد سادهسازی میکند. مجموعهداده DICES (تنوع در ارزیابی هوش مصنوعی گفتگومحور برای ایمنی) که توسط پژوهشگران گوگل ریسرچ، دانشگاه سیتی لندن و دانشگاه کمبریج معرفی شده است، این شکاف را با ارائه منبعی که واریانس ذاتی، ابهام و تنوع دیدگاههای انسانی درباره ایمنی هوش مصنوعی را ثبت میکند، برطرف میسازد.
DICES بر اساس سه اصل بنیادی طراحی شده است: ۱) گنجاندن اطلاعات جمعیتی ریزبینانه درباره ارزیابان (مانند گروه نژادی/قومی، سن، جنسیت)، ۲) تکرار بالای ارزیابیها برای هر آیتم گفتگو برای تضمین توان آماری، و ۳) کدگذاری آرای ارزیابان به صورت توزیع در میان گروههای جمعیتی برای امکانپذیر ساختن بررسی استراتژیهای مختلف تجمیع. این طراحی فراتر از یک «حقیقت مطلق» واحد رفته و در عوض، ایمنی را به عنوان سازهای چندوجهی و وابسته به جمعیت در نظر میگیرد.
1.1. دستاوردها
دستاوردهای اصلی مجموعهداده DICES و پژوهش همراه آن عبارتند از:
- تنوع ارزیابان به عنوان یک ویژگی محوری: تغییر تمرکز از کاهش «سوگیری» به پذیرش و تحلیل «تنوع» در نظرات ارزیابان.
- چارچوبی برای تحلیل ریزبینانه: ارائه ساختاری برای مجموعهداده که امکان بررسی عمیق چگونگی تقاطع ادراکات ایمنی با دستهبندیهای جمعیتی را فراهم میکند.
- معیاری برای ارزیابی ظریف: تثبیت DICES به عنوان یک منبع مشترک برای ارزیابی سیستمهای هوش مصنوعی گفتگومحور به گونهای که دیدگاههای متنوع را محترم شمرده و فراتر از نمرات ایمنی یکپارچه حرکت کند.
2. بینش اصلی و جریان منطقی
بینش اصلی: نقص بنیادی در ارزیابی ایمنی هوش مصنوعی جریان اصلی، کمبود داده نیست، بلکه کمبود دادههای نماینده و تفکیکشده است. در نظر گرفتن ایمنی به عنوان یک وظیفه طبقهبندی عینی و دودویی، یک سادهسازی خطرناک است که ظرافتهای فرهنگی را محو کرده و میتواند به سیستمهایی منجر شود که تنها برای یک جمعیت غالب «ایمن» هستند. DICES به درستی شناسایی میکند که ایمنی یک سازه اجتماعی است و ارزیابی آن باید آماری باشد، نه قطعی.
جریان منطقی: استدلال مقاله بسیار برنده است: ۱) تنظیم دقیق ایمنی مدلهای زبانی بزرگ کنونی بر مجموعهدادههای سادهشده متکی است. ۲) این سادهسازی واریانس ذهنی را نادیده میگیرد که به ویژه برای ایمنی — که مفهومی وابسته به بافت اجتماعی است — مشکلساز است. ۳) بنابراین، ما به دسته جدیدی از مجموعهداده نیاز داریم که این واریانس را به صراحت از طریق تنوع جمعیتی و تکرار بالای ارزیابان ثبت کند. ۴) DICES این نیاز را برآورده میسازد و تحلیلهایی را ممکن میکند که نشان میدهد کدام گروهها کدام محتوا را ناایمن میدانند و تا چه حد. این جریان منطقی، افسانه یک استاندارد ایمنی جهانی را از بین برده و آن را با چارچوبی برای درک چشماندازهای ایمنی جایگزین میکند.
3. نقاط قوت و ضعف
نقاط قوت:
- طراحی تغییردهنده پارادایم: حرکت از برچسبهای دودویی به توزیعهای جمعیتی، ویژگی برجسته آن است. این امر رشته را وادار میکند تا با کثرتگرایی ایمنی روبرو شود.
- دقت آماری: تکرار بالا برای هر آیتم برای تحلیل جمعیتی معنادار غیرقابل مذاکره است و DICES این را به درستی انجام میدهد. این مجموعهداده توان آماری لازم برای حرکت فراتر از حکایتهای فردی را فراهم میکند.
- قابل اجرا برای توسعه مدل: این مجموعهداده تنها یک مشکل را تشخیص نمیدهد؛ بلکه ساختاری (توزیعها) ارائه میدهد که میتواند مستقیماً تنظیم دقیق ظریفتر و معیارهای ارزیابی را اطلاع رسانی کند، مشابه آنکه سنجش عدم قطعیت، کالیبراسیون مدل را بهبود بخشید.
نقاط ضعف و پرسشهای باز:
- «گلوگاه جمعیتی»: اگرچه این مجموعهداده شامل جمعیتشناسیهای کلیدی است، اما انتخاب دستهبندیها (نژاد، سن، جنسیت) یک نقطه شروع است. این مجموعهداده تقاطعها (مانند زنان جوان سیاهپوست) و محورهای دیگر مانند وضعیت اقتصادی-اجتماعی، معلولیت یا جغرافیای فرهنگی را از دست میدهد که برای تصویر کامل به همان اندازه حیاتی هستند.
- چالش عملیاتیسازی: مقاله در مورد چگونگی اجرا کمگویی کرده است. یک توسعهدهنده مدل دقیقاً چگونه باید از این توزیعها استفاده کند؟ آیا باید مدل را بر اساس میانگین تنظیم دقیق کرد؟ مد؟ یا سیستمی توسعه داد که بتواند فیلتر ایمنی خود را بر اساس جمعیتشناسی استنباطشده کاربر تطبیق دهد؟ گام از داده غنی به عمل مهندسی، صخره بعدی برای صعود است.
- تصویر ایستا: هنجارهای اجتماعی درباره ایمنی تکامل مییابند. یک مجموعهداده، هرچند متنوع، یک تصویر ایستا است. این چارچوب فاقد مسیری روشن برای بهروزرسانی پیوسته و پویای این ادراکات ایمنی است، چالشی که سایر مجموعهدادههای اخلاقی ایستا نیز با آن مواجه هستند.
4. بینشهای کاربردی
برای متخصصان هوش مصنوعی و رهبران محصول:
- بازرسی فوری: از چارچوب DICES (توزیعها، نه میانگینها) برای بازرسی طبقهبندهای ایمنی فعلی خود استفاده کنید. به احتمال زیاد خواهید دید که آنها با یک بخش جمعیتی محدود همسو هستند. این یک ریسک اعتباری و محصولی است.
- تعریف مجدد معیار خود: گزارش دادن یک «نمره ایمنی» واحد را متوقف کنید. یک پروفایل ایمنی گزارش دهید: «خروجیهای این مدل با ادراکات ایمنی گروه A با توافق X% همسو است و در موضوعات Y و Z از گروه B فاصله دارد.» شفافیت اعتماد میسازد.
- سرمایهگذاری در ایمنی تطبیقی: هدف نهایی یک مدل کاملاً ایمن واحد نیست، بلکه مدلهایی هستند که بتوانند زمینه، از جمله زمینه کاربر را درک کنند. سرمایهگذاری پژوهشی باید از فیلترهای ایمنی یکپارچه به سمت مکانیزمهای ایمنی آگاه از زمینه و بالقوه شخصیسازیشده برای کاربر تغییر جهت دهد تا اطمینان حاصل شود که رفتار مدل برای مخاطب آن مناسب است. کار روی همسویی ارزشها در اخلاق هوش مصنوعی، مانند آنچه در مؤسسه هوش مصنوعی انسانمحور استنفورد (HAI) بحث شده است، تأکید میکند که همسویی باید با کثرت ارزشهای انسانی باشد، نه یک مجموعه واحد.
5. چارچوب فنی و طراحی مجموعهداده
مجموعهداده DICES حول گفتگوهای انسان-ربات ساخته شده است که توسط گروه بزرگی از ارزیابان با لایهبندی جمعیتی از نظر ایمنی ارزیابی میشوند. نوآوری کلیدی در ساختار داده است: به جای ذخیره یک برچسب واحد (مانند «ناایمن»)، هر آیتم گفتگو با یک آرایه چندبعدی از ارزیابیها مرتبط است که بر اساس سطلهای جمعیتی تفکیک شده است.
برای یک گفتگوی معین $c_i$، مجموعهداده $label(c_i) \in \{0, 1\}$ را ارائه نمیدهد. در عوض، مجموعهای از پاسخهای ارزیابان $R_i = \{r_{i,1}, r_{i,2}, ..., r_{i,N}\}$ را ارائه میدهد، که در آن هر پاسخ $r_{i,j}$ یک تاپل $(v_{i,j}, d_{i,j})$ است. در اینجا، $v_{i,j}$ حکم ایمنی است (مثلاً در مقیاس لیکرت یا دودویی)، و $d_{i,j}$ یک بردار است که ویژگیهای جمعیتی ارزیاب را کدگذاری میکند (مثلاً $d_{i,j} = [\text{جنسیت}=G1, \text{سن}=A2, \text{قومیت}=E3]$).
5.1. نمایش ریاضی توزیعهای ارزیابان
قدرت تحلیلی اصلی از تجمیع این ارزیابیهای فردی به توزیعها ناشی میشود. برای یک بخش جمعیتی خاص $D_k$ (مثلاً «آسیایی، ۳۹-۳۰ سال، زن»)، میتوانیم توزیع نمرات ایمنی برای گفتگوی $c_i$ را محاسبه کنیم:
$P(\text{نمره} = s | c_i, D_k) = \frac{|\{r \in R_i : v(r)=s \land d(r) \in D_k\}|}{|\{r \in R_i : d(r) \in D_k\}|}$
این امر نه تنها امکان محاسبه میانگین نمره ایمنی $\mu_{i,k}$، بلکه مهمتر از آن، اندازهگیریهای واریانس ($\sigma^2_{i,k}$)، ابهام (مانند آنتروپی توزیع $H(P)$) و واگرایی بین گروههای جمعیتی (مانند واگرایی کولبک-لایبلر $D_{KL}(P_{i,k} || P_{i,l})$) را فراهم میکند. این صورتبندی ریاضی برای حرکت فراتر از میانگینگیری سادهلوحانه حیاتی است.
6. نتایج تجربی و تحلیل
اگرچه چکیده PDF ارائهشده یک پیشچاپ تحت بررسی است و حاوی نتایج تجربی کامل نیست، مجموعهداده توصیفشده چندین تحلیل کلیدی را ممکن میسازد که معمولاً در نمودارها ارائه میشوند:
- نمودار ۱: نقشه حرارتی اختلاف جمعیتی: یک نمایش ماتریسی که واگرایی زوجی (مانند فاصله جنسن-شانون) در توزیعهای نمره ایمنی بین گروههای جمعیتی مختلف (مثلاً گروه A: مرد سفیدپوست ۵۰+ سال در مقابل گروه B: زن هیسپانیک ۲۹-۱۸ سال) در نمونهای از موضوعات بحثبرانگیز گفتگو را نشان میدهد. این نمودار به وضوح نشان میدهد که ادراکات در کجا بیشترین واگرایی را دارند.
- نمودار ۲: نمودار پراکندگی ابهام در مقابل اجماع: ترسیم هر آیتم گفتگو بر اساس میانگین نمره ایمنی آن (محور x) و آنتروپی توزیع کل ارزیابی آن (محور y). این نمودار آیتمهایی را که به طور جهانی ایمن/ناایمن دیده میشوند (آنتروپی کم، اجماع بالا) از آنهایی که بسیار مبهم هستند (آنتروپی بالا) جدا میکند.
- نمودار ۳: نمودار میلهای تفکیک عملکرد مدل: مقایسه عملکرد (مانند نمره F1) یک طبقهبند ایمنی استاندارد هنگام ارزیابی در برابر «حقیقت مطلق» تعریفشده توسط گروههای جمعیتی مختلف. افت عملکرد قابل توجه برای گروههای خاص نشان میدهد که همسویی مدل کج است.
قدرت DICES در این است که دادههای لازم برای ایجاد این نمودارها را تولید میکند و ارزیابی را از یک عدد واحد به یک داشبورد چندوجهی منتقل میکند.
7. چارچوب تحلیل: مطالعه موردی نمونه
سناریو: یک هوش مصنوعی گفتگومحور در پاسخ به درخواست کاربر یک جوک تولید میکند. دادههای آموزشی و ارزیابی ایمنی استاندارد آن را به عنوان «ایمن» (طنز) برچسب میزنند.
تحلیل مبتنی بر DICES:
- بازیابی داده: پرسوجو در مجموعهداده DICES برای آیتمهای گفتگوی مشابه شامل طنز یا جوک در موضوعات مرتبط.
- تحلیل توزیع: بررسی توزیعهای نمرهدهی ایمنی. ممکن است بیابید:
- $P(\text{ناایمن} | \text{سن}=۲۹-۱۸) = 0.15$
- $P(\text{ناایمن} | \text{سن}=۶۰+) = 0.65$
- $P(\text{ناایمن} | \text{قومیت}=E1) = 0.20$
- $P(\text{ناایمن} | \text{قومیت}=E2) = 0.55$
- تفسیر: «ایمنی» این جوک یک واقعیت نیست، بلکه تابعی از جمعیتشناسی است. خروجی مدل، اگرچه از نظر فنی با یک قاعده گسترده «ایمنی» مطابقت دارد، اما خطر بالایی دارد که توسط سالمندان و اعضای گروه قومی E2 توهینآمیز تلقی شود.
- اقدام: یک رویکرد سادهلوحانه این است که همه جوکها مسدود شوند. یک رویکرد ظریف، آگاهشده از DICES، میتواند این باشد که: الف) این نوع محتوا را به عنوان «دارای واریانس جمعیتی بالا» علامتگذاری کند، ب) یک ماژول زمینه کاربری توسعه دهد که به مدل اجازه دهد سبک طنز خود را تنظیم کند، یا ج) یک یادداشت شفافیت ارائه دهد: «این پاسخ از طنز استفاده میکند. ادراک طنز در فرهنگها و گروههای سنی مختلف به شدت متفاوت است.»
این مطالعه موردی نشان میدهد که چگونه DICES سؤال را از «آیا این ایمن است؟» به «ایمن برای چه کسی، و تحت چه شرایطی؟» تغییر میدهد.
8. کاربردهای آتی و جهتهای پژوهشی
چارچوب DICES چندین مسیر حیاتی برای کار آینده میگشاید:
- مدلهای ایمنی شخصیسازیشده و تطبیقی: نقطه پایان منطقی یک فیلتر ایمنی یکاندازه-برای-همه نیست، بلکه مدلهایی هستند که میتوانند زمینه مرتبط کاربر را (با رعایت حریم خصوصی مناسب) استنباط کرده و آستانههای ایمنی یا استراتژیهای تولید محتوای خود را بر این اساس تطبیق دهند. این امر با روند گستردهتر در یادگیری ماشین به سمت شخصیسازی همسو است، همانطور که در سیستمهای توصیهگر دیده میشود.
- ارزیابی پویا و پیوسته: توسعه روشهایی برای بهروزرسانی پیوسته و تقریباً بلادرنگ مجموعهدادههای ادراک ایمنی مانند DICES، برای ثبت هنجارهای اجتماعی در حال تکامل و مناقشات نوظهور، مشابه آنکه خود مدلهای زبانی به طور پیوسته بهروز میشوند.
- ابزارهای تحلیل تقاطعی: گسترش چارچوب جمعیتی برای ثبت بهتر هویتهای تقاطعی، حرکت فراتر از دستهبندیهای مستقل برای درک تجربیات ترکیبی افراد متعلق به چندین گروه اقلیت.
- ادغام با یادگیری تقویتی از بازخورد انسانی (RLHF): استفاده از بازخورد انسانی تفکیکشده از مجموعهدادههایی مانند DICES برای آموزش مدلهای پاداش که به همسویی جمعیتی حساس هستند، و جلوگیری از بهینهسازی برای یک مفهوم واحد و بالقوه محدود از گفتگوی «خوب» یا «ایمن». این امر به یک محدودیت شناختهشده در RLHF استاندارد میپردازد، همانطور که در پژوهشهای Anthropic و DeepMind درباره نظارت مقیاسپذیر برجسته شده است.
- گسترش جهانی: مقیاسدهی جمعآوری داده به سطحی واقعاً جهانی، شامل فرهنگها و زبانهای غیرغربی، برای مبارزه با سوگیری انگلومحور رایج در بسیاری از منابع ایمنی هوش مصنوعی.
9. منابع
- Aroyo, L., Taylor, A. S., Díaz, M., Homan, C. M., Parrish, A., Serapio-García, G., Prabhakaran, V., & Wang, D. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
- Bommasani, R., et al. (2021). On the Opportunities and Risks of Foundation Models. Stanford Center for Research on Foundation Models (CRFM).
- Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).
- Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems (NeurIPS).
- Stanford Institute for Human-Centered AI (HAI). (2023). The AI Index Report 2023. Stanford University.
- Weidinger, L., et al. (2021). Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359.
- Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (به عنوان نمونهای از یک چارچوب — CycleGAN — که دادههای جفتنشده و چندوجهی را مدیریت میکند، مشابه مدیریت DICES از قضاوتهای انسانی متنوع و غیرهمتراز، ذکر شده است).