مجموعه‌داده DICES: تنوع در ارزیابی ایمنی هوش مصنوعی گفتگو‌محور

1. مقدمه

گسترش سیستم‌های هوش مصنوعی گفتگو‌محور مبتنی بر مدل‌های زبانی بزرگ (LLMs)، ارزیابی ایمنی را به یک دغدغه حیاتی تبدیل کرده است. رویکردهای سنتی اغلب بر مجموعه‌داده‌هایی متکی هستند که جدایی دودویی روشنی بین محتوای «ایمن» و «ناایمن» قائل می‌شوند، که ذاتاً ماهیت ذهنی و وابسته به بافت فرهنگی ایمنی را بیش از حد ساده می‌انگارد. این مقاله مجموعه‌داده DICES (تنوع در ارزیابی هوش مصنوعی گفتگو‌محور برای ایمنی) را معرفی می‌کند که برای ثبت و تحلیل واریانس در ادراک ایمنی در میان جمعیت‌های انسانی متنوع طراحی شده است.

مسئله اصلی که به آن پرداخته شده، غفلت از تنوع جمعیتی و دیدگاهی در مجموعه‌داده‌های ایمنی موجود است که می‌تواند منجر به مدل‌هایی شود که با هنجارهای گروه‌های کاربری خاص ناهماهنگ بوده و «اثرات ناخواسته یا حتی فاجعه‌بار در محیط‌های واقعی» داشته باشند.

1.1. دستاوردها

دستاوردهای اصلی مجموعه‌داده DICES و این کار عبارتند از:

تنوع ارزیابان: تمرکز را از «کاهش سوگیری» به «پذیرش و سنجش تنوع» در نظرات ارزیابان تغییر می‌دهد.
حاشیه‌نویسی جمعیتی ریزدانه: شامل اطلاعات جمعیتی دقیق (گروه نژادی/قومی، سن، جنسیت) برای هر ارزیاب است.
تکرارپذیری بالا برای هر آیتم: هر آیتم گفتگو تعداد زیادی امتیاز دریافت می‌کند تا قدرت آماری لازم برای تحلیل زیرگروه‌ها تضمین شود.
نمایش مبتنی بر توزیع: رأی‌های ایمنی را به‌عنوان توزیع‌هایی در میان گروه‌های جمعیتی کدگذاری می‌کند و امکان کاوش راهبردهای تجمیع مختلف فراتر از رأی اکثریت را فراهم می‌آورد.
چارچوبی برای تحلیل: مبنایی برای تعیین معیارهای جدیدی فراهم می‌کند که امتیازات ارزیابان را با دسته‌بندی‌های جمعیتی تلاقی می‌دهند.

2. چارچوب مجموعه‌داده DICES

DICES به‌عنوان یک منبع و معیار مشترک ساخته شده است تا در طول ارزیابی ایمنی، دیدگاه‌های متنوع را محترم بشمارد. این مجموعه‌داده از یک برچسب حقیقت واحد فراتر می‌رود.

2.1. اصول طراحی کلیدی

تنوع هدفمند: گروه ارزیابان به گونه‌ای ساختار یافته است که نسبت‌های متعادلی از زیرگروه‌های جمعیتی کلیدی داشته باشد.
دقت آماری: تکرارپذیری بالای امتیازات برای هر آیتم گفتگو، امکان تحلیل قوی از توافق، اختلاف‌نظر و واریانس درون‌گروهی و بین‌گروهی را فراهم می‌کند.
ایمنی بافت‌محور: امتیازدهی بر اساس گفتگوهای انسان-ربات است و ایمنی را در یک بافت پویا و تعاملی ثبت می‌کند، نه بر اساس درخواست‌های مجزا.

2.2. ترکیب و آمار مجموعه‌داده

ویژگی‌های جمعیتی ارزیابان

گروهی متنوع از گروه‌های نژادی/قومی، بازه‌های سنی و جنسیت‌های مختلف.

امتیازات هر آیتم

تعداد تکرار به‌طور استثنایی بالا (مثلاً ۵۰+ امتیاز برای هر گفتگو) برای امکان تحلیل قدرتمند زیرگروه‌ها.

ساختار داده

هر نقطه داده، یک گفتگو، پروفایل جمعیتی یک ارزیاب و امتیاز ایمنی او (مثلاً مقیاس لیکرت یا دسته‌ای) را به هم پیوند می‌دهد.

3. روش‌شناسی فنی و چارچوب تحلیل

نوآوری فنی در این است که ایمنی نه به‌عنوان یک مقدار اسکالر، بلکه به‌عنوان یک توزیع چندبعدی در نظر گرفته می‌شود.

3.1. نمایش ایمنی به‌عنوان یک توزیع

برای یک آیتم گفتگوی معین $i$، ایمنی نه با یک برچسب واحد $y_i$، بلکه با توزیعی از امتیازات در میان $K$ گروه جمعیتی نمایش داده می‌شود. فرض کنید $R_{i,g}$ مجموعه امتیازات برای آیتم $i$ از ارزیابان گروه $g$ باشد. پروفایل ایمنی برای آیتم $i$ بردار زیر است: $\mathbf{S}_i = (\bar{R}_{i,1}, \bar{R}_{i,2}, ..., \bar{R}_{i,K})$، که در آن $\bar{R}_{i,g}$ یک گرایش مرکزی (مثلاً میانگین، میانه) از امتیازات در گروه $g$ است.

معیارهای واریانس مانند $\sigma^2_{i,g}$ (واریانس درون‌گروهی) و $\Delta_{i, g1, g2} = |\bar{R}_{i,g1} - \bar{R}_{i,g2}|$ (اختلاف بین‌گروهی) را می‌توان برای کمّی‌سازی ابهام و تفاوت دیدگاهی محاسبه کرد.

3.2. راهبردهای تجمیع و معیارها

DICES امکان مقایسه روش‌های مختلف تجمیع برچسب را فراهم می‌کند:

رأی اکثریت (خط پایه): $y_i^{maj} = \text{mode}(\bigcup_{g=1}^{K} R_{i,g})$
تجمیع وزنی جمعیتی: $y_i^{weighted} = \sum_{g=1}^{K} w_g \cdot \bar{R}_{i,g}$، که در آن $w_g$ می‌تواند متناسب با اندازه جمعیت یا وزن‌های دیگر متمرکز بر برابری باشد.
حداقل ایمنی (محافظه‌کارانه): $y_i^{min} = \min(\bar{R}_{i,1}, ..., \bar{R}_{i,K})$ دیدگاه حساس‌ترین گروه را در اولویت قرار می‌دهد.

معیارهای جدیدی مانند شاخص اختلاف جمعیتی (DDI) یا امتیاز هم‌راستایی زیرگروه را می‌توان برای اندازه‌گیری چگونگی تغییر عملکرد مدل در میان گروه‌ها استخراج کرد.

4. نتایج آزمایشی و یافته‌های کلیدی

در حالی که گزیده PDF ارائه شده یک پیش‌چاپ تحت بررسی است و حاوی نتایج کامل نیست، چارچوب پیشنهادی منجر به چندین یافته مورد انتظار می‌شود:

واریانس قابل توجه: سطوح بالایی از اختلاف درون‌گروهی و بین‌گروهی در مورد برچسب‌های ایمنی برای زیرمجموعه قابل توجهی از آیتم‌های گفتگو، که مفهوم استاندارد ایمنی جهانی را به چالش می‌کشد.
همبستگی‌های جمعیتی: تفاوت‌های سیستماتیک در امتیازات ایمنی در خطوط سنی، نژادی/قومی و جنسیتی برای موضوعات یا لحن‌های گفتگوی خاص (مثلاً طنز، صراحت، ارجاعات فرهنگی) مشاهده می‌شود.
تأثیر تجمیع: انتخاب راهبرد تجمیع (اکثریت در مقابل وزنی در مقابل حداقل) منجر به برچسب‌های ایمنی نهایی متفاوت از نظر مادی برای ۱۵-۳۰٪ از آیتم‌ها می‌شود و به طور قابل توجهی بر گفتگوهایی که یک مدل برای اجتناب یا اجازه دادن آموزش می‌بیند تأثیر می‌گذارد.
شکاف ارزیابی مدل: مدلی که توسط مجموعه آزمایش تجمیع‌شده با رأی اکثریت «ایمن» تلقی می‌شود، ممکن است هنگام ارزیابی در برابر ترجیحات زیرگروه‌های جمعیتی اقلیت خاص، نرخ خطای به‌طور قابل توجهی بالاتری (مثلاً +۲۰٪ منفی/مثبت کاذب) نشان دهد.

توضیح نمودار (مفهومی): یک نمودار چندوجهی برای ارائه نتایج محوری خواهد بود. پنل A یک نقشه حرارتی از میانگین امتیازات ایمنی (مقیاس ۱-۵) برای ۱۰۰ آیتم گفتگو (ردیف‌ها) در میان ۴ گروه جمعیتی (ستون‌ها) نشان می‌دهد که الگوهای هم‌راستایی و اختلاف را آشکار می‌کند. پنل B یک نمودار میله‌ای است که تصمیم نهایی «ایمن/ناایمن» را برای ۲۰ آیتم مبهم تحت سه راهبرد تجمیع مقایسه می‌کند و به‌طور بصری پیامد انتخاب تجمیع را نشان می‌دهد. پنل C دقت مدل را برای گروه اکثریت در مقابل دقت آن برای یک گروه اقلیت خاص ترسیم می‌کند، که بسیاری از نقاط زیر خط برابری قرار می‌گیرند و نابرابری عملکرد را نشان می‌دهند.

5. چارچوب تحلیل: یک مطالعه موردی عملی

سناریو: یک تیم توسعه در حال تنظیم دقیق یک دستیار هوش مصنوعی گفتگو‌محور برای یک برنامه خدمات مشتری جهانی است. آن‌ها از یک مجموعه‌داده ایمنی استاندارد برای فیلتر کردن داده‌های آموزشی استفاده می‌کنند. اکنون می‌خواهند از DICES برای حسابرسی هم‌راستایی ایمنی مدل خود برای پایگاه‌های کاربری مختلف استفاده کنند.

مراحل تحلیل:

حسابرسی عملکرد زیرگروه: مدل را روی درخواست‌های گفتگوی DICES اجرا کنید. پاسخ‌های تولیدشده آن را جمع‌آوری کنید. یک گروه جدید و متنوع از نظر جمعیتی از ارزیابان (یا از امتیازات اصلی DICES استفاده کنید اگر درخواست‌ها مشابه باشند) را وادار کنید تا ایمنی این گفتگوهای تولیدشده توسط مدل را ارزیابی کنند. دقت/بازخوانی/F1 را برای تشخیص ایمنی به‌طور جداگانه برای ارزیابان در گروه A (مثلاً سنین ۱۸-۳۰، آمریکای شمالی) و گروه B (مثلاً سنین ۵۰+، جنوب شرق آسیا) محاسبه کنید.
شناسایی کانون‌های اختلاف: موضوعات یا سبک‌های گفتگویی را که شکاف عملکرد بین گروه A و گروه B در آن‌ها بیشترین است (مثلاً تفاوت >۳۰٪ در نرخ ایمنی درک‌شده) جدا کنید. این امر مناطق خاصی را نشانه‌گذاری می‌کند که هم‌راستایی ایمنی مدل در آن‌ها قوی نیست.
کاوش راهبردهای تجمیع: تنظیم دقیق مدل را با استفاده از برچسب‌های ایمنی استخراج‌شده از DICES با استفاده از: الف) رأی اکثریت، ب) یک طرح وزنی که جمعیت هدف منطقه‌ای (گروه B) را بیش از حد نمایندگی می‌کند، شبیه‌سازی کنید. رفتار مدل‌های حاصل را مقایسه کنید. چارچوب DICES داده‌هایی را برای این انتخاب آگاهانه فراهم می‌کند تا اینکه به قاعده اکثریت پیش‌فرض متوسل شویم.
نتیجه: تیم کشف می‌کند که مدل فعلی آن‌ها ۲۵٪ احتمال بیشتری دارد که پاسخ‌هایی تولید کند که توسط ارزیابان مسن‌تر جنوب شرق آسیا در بافت‌های مذاکره به‌عنوان «تحمیل‌گر» یا «ناایمن» درک می‌شوند. آن‌ها تصمیم می‌گیرند در طول چرخه تنظیم دقیق بعدی از یک تابع زیان وزنی جمعیتی استفاده کنند تا هم‌راستایی برای آن بخش کاربری کلیدی را بهبود بخشند.

6. کاربردهای آتی و جهت‌گیری‌های پژوهشی

سازگاری پویای ایمنی: مدل‌هایی که می‌توانند بافت/ویژگی‌های جمعیتی کاربر را استنباط کنند (با رعایت حریم خصوصی مناسب) و محافظ‌های ایمنی/گفتگویی خود را در زمان واقعی تطبیق دهند، با استفاده از چارچوب‌هایی مانند DICES به‌عنوان مرجعی برای واریانس قابل قبول.
هم‌راستایی هوش مصنوعی شخصی‌سازی‌شده: گسترش پارادایم از ایمنی به سایر کیفیت‌های ذهنی (مفید بودن، طنز، ادب) که به کاربران اجازه می‌دهد شخصیت‌های هوش مصنوعی را در محدوده‌ای از ترجیحات تأییدشده توسط جامعه تنظیم کنند.
تدوین سیاست و استاندارد: اطلاع‌رسانی به استانداردهای صنعتی و نظارتی برای ارزیابی ایمنی هوش مصنوعی. DICES روش‌شناسی‌ای برای تعریف آستانه‌های «اختلاف نظر معقول» و الزام به ارزیابی‌های تأثیر زیرگروه، مشابه حسابرسی‌های انصاف در الگوریتم‌های استخدام ارائه می‌دهد.
آموزش مدل بین‌فرهنگی: استفاده فعال از مجموعه‌داده‌هایی مانند DICES برای آموزش مدل‌هایی که به‌طور صریح از تنوع دیدگاهی آگاه هستند، احتمالاً از طریق یادگیری چندوظیفه‌ای یا معماری‌های مدل‌سازی ترجیحی الهام‌گرفته از یادگیری تقویتی از بازخورد انسانی (RLHF) اما با چندین مدل پاداش خاص گروه.
مطالعات طولی: ردیابی چگونگی تکامل ادراک ایمنی درون و میان گروه‌های جمعیتی در طول زمان در پاسخ به تغییرات فناورانه و اجتماعی، که مستلزم نسخه‌های به‌روزرسانی‌شده مجموعه‌داده DICES است.

7. مراجع

Aroyo, L., et al. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.
Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Findings of the Association for Computational Linguistics: EMNLP 2020.
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Prabhakaran, V., Denton, E., Webster, K., & Conover, A. (2022). Creativity, Caution, and Collaboration: Understanding and Supporting Human-AI Co-creativity. Proceedings of the ACM on Human-Computer Interaction.
Xu, J., et al. (2020). RECAST: Enabling User Recourse and Interpretability of Toxicity Detection Models with Interactive Visualization. Proceedings of the ACM on Human-Computer Interaction.

8. تحلیل کارشناسی: بینش کلیدی، جریان منطقی، نقاط قوت و ضعف، بینش‌های عملی

بینش کلیدی

DICES فقط یک مجموعه‌داده دیگر نیست؛ این یک چالش مستقیم به مبانی معرفت‌شناختی ارزیابی ایمنی هوش مصنوعی جریان اصلی است. بینش کلیدی مقاله این است که «ایمنی» در گفتگو یک ویژگی دودویی متن نیست، بلکه یک ویژگی برآمده از تعامل بین متن و یک بافت انسانی خاص است. با در نظر گرفتن اختلاف‌نظر به‌عنوان نویزی که باید حذف شود، ما در حال ساختن مدل‌هایی برای یک کاربر فرضی و میانگین آماری بوده‌ایم که وجود ندارد. این کار، در کنار پژوهش‌های انتقادی مانند کار Bender و همکاران (۲۰۲۱) در مورد «طوطی‌های تصادفی»، ما را وادار به بازنگری می‌کند: تلاش ما برای ایمنی مقیاس‌پذیر و خودکار ممکن است به‌طور سیستماتیک همان تنوعی را که ادعای محافظت از آن را داریم، محو کند.

جریان منطقی

استدلال قانع‌کننده و روشمند است: ۱) شناسایی نقص: مجموعه‌داده‌های ایمنی فعلی یک حقیقت واحد را فرض می‌کنند و ذهنیت را پنهان می‌کنند. ۲) پیشنهاد پادزهر: برای ثبت واقعیت، به داده‌هایی نیاز داریم که واریانس را حفظ کرده و آن را به ویژگی‌های جمعیتی پیوند دهند. ۳) ساخت ابزار: بنابراین، DICES — با ساختار جمعیتی هدفمند و تکرارپذیری بالای آن. ۴) نشان دادن کاربرد: این امکان تحلیل‌های جدیدی (معیارهای مبتنی بر توزیع، مقایسه تجمیع‌ها) را فراهم می‌کند که پیامدهای انتخاب‌های ما را آشکار می‌کند. منطق از نقد به راه‌حل سازنده به‌طور یکپارچه حرکت می‌کند.

نقاط قوت و ضعف

نقاط قوت: چارچوب‌بندی مفهومی بزرگترین دارایی آن است. تغییر از «کاهش سوگیری» به «سنجش تنوع» بیش از یک تغییر معنایی است — این یک بازجهت‌دهی اساسی از یک مدل کاستی‌محور به یک مدل کثرت‌گرا است. طراحی فنی (تکرارپذیری بالا، کدگذاری توزیع) قوی است و مستقیماً به هدف فلسفی آن خدمت می‌کند. این یک معیار مورد نیاز مبرم برای یک زمینه نوپای ارزیابی ایمنی فراگیر فراهم می‌کند.

نقاط ضعف و شکاف‌ها: وضعیت پیش‌چاپ به این معنی است که نتایج عینی و در مقیاس بزرگ در انتظار هستند و ما باید به وعده چارچوب اعتماد کنیم. یک شکاف قابل توجه چالش عملیاتی‌سازی است: یک تیم محصول واقعاً چگونه از این استفاده می‌کند؟ انتخاب یک راهبرد تجمیع (اکثریت، وزنی، حداقل) اکنون یک تصمیم اخلاقی و محصولی پیچیده است، نه فقط یک تصمیم فنی. مجموعه‌داده همچنین خطر عینیت بخشیدن به دسته‌بندی‌های جمعیتی که استفاده می‌کند را دارد؛ مقاله به تقاطع‌گرایی اشاره می‌کند اما تحلیل ممکن است هنوز «سن» و «نژاد» را به‌عنوان محورهای مستقل در نظر بگیرد. علاوه بر این، مانند RLHF اثر Ouyang و همکاران (۲۰۲۲)، این مجموعه‌داده به ارزیابان انسانی متکی است و تمام پیچیدگی‌ها، هزینه‌ها و ناسازگاری‌های بالقوه آن فرآیند را به ارث می‌برد.

بینش‌های عملی

برای متخصصان و رهبران هوش مصنوعی:

حسابرسی فوری: از چارچوب DICES (حتی قبل از انتشار کامل مجموعه‌داده) برای انجام یک حسابرسی نابرابری زیرگروه بر روی طبقه‌بندهای ایمنی فعلی خود استفاده کنید. می‌توانید با یک نظرسنجی جمعیتی کوچکتر و داخلی شروع کنید. سؤال این نیست که «آیا مدل ما ایمن است؟» بلکه این است که «برای چه کسی مدل ما ایمن است و در کجا شکست می‌خورد؟»
تعریف مجدد معیارهای موفقیت: الزام کنید که گزارش‌های ارزیابی ایمنی شامل معیارهای واریانس (مثلاً انحراف معیار امتیازات در بخش‌های کلیدی کاربران) در کنار دقت سنتی باشند. یک مدل با دقت ۹۵٪ اما با واریانس بین‌گروهی بالا، پرریسک‌تر از مدلی با دقت ۹۰٪ و واریانس پایین است.
سرمایه‌گذاری در معماری مدل‌سازی ترجیح: فراتر از یک «مدل پاداش» ایمنی واحد بروید. مدل‌های پاداش چندسر یا شبکه‌های ترجیح شرطی را کاوش کنید که می‌توانند نگاشت از (بافت، پروفایل کاربر) به مرزهای ایمنی مناسب را یاد بگیرند، با استفاده از مجموعه‌داده‌هایی مانند DICES برای آموزش.
تعبیه اخلاق‌شناسان و دانشمندان علوم اجتماعی در حلقه: انتخاب راهبرد تجمیع برای برچسب‌های آموزشی شما یک تصمیم سیاست محصول با پیامدهای اخلاقی است. این تصمیم باید به‌طور مشارکتی گرفته شود، نه صرفاً توسط مهندسان ML که برای یک معیار واحد بهینه‌سازی می‌کنند.

DICES با موفقیت استدلال می‌کند که نادیده گرفتن تنوع یک ریسک فنی وجودی است. گام بعدی ساختن روش‌های مهندسی و مدیریت محصولی است که بتوانند پیچیدگی‌ای را که آشکار می‌کند، مدیریت کنند.