1. مقدمه
گسترش سیستمهای هوش مصنوعی گفتگومحور مبتنی بر مدلهای زبانی بزرگ (LLMs)، ارزیابی ایمنی را به یک دغدغه حیاتی تبدیل کرده است. رویکردهای سنتی اغلب بر مجموعهدادههایی متکی هستند که جدایی دودویی روشنی بین محتوای «ایمن» و «ناایمن» قائل میشوند، که ذاتاً ماهیت ذهنی و وابسته به بافت فرهنگی ایمنی را بیش از حد ساده میانگارد. این مقاله مجموعهداده DICES (تنوع در ارزیابی هوش مصنوعی گفتگومحور برای ایمنی) را معرفی میکند که برای ثبت و تحلیل واریانس در ادراک ایمنی در میان جمعیتهای انسانی متنوع طراحی شده است.
مسئله اصلی که به آن پرداخته شده، غفلت از تنوع جمعیتی و دیدگاهی در مجموعهدادههای ایمنی موجود است که میتواند منجر به مدلهایی شود که با هنجارهای گروههای کاربری خاص ناهماهنگ بوده و «اثرات ناخواسته یا حتی فاجعهبار در محیطهای واقعی» داشته باشند.
1.1. دستاوردها
دستاوردهای اصلی مجموعهداده DICES و این کار عبارتند از:
- تنوع ارزیابان: تمرکز را از «کاهش سوگیری» به «پذیرش و سنجش تنوع» در نظرات ارزیابان تغییر میدهد.
- حاشیهنویسی جمعیتی ریزدانه: شامل اطلاعات جمعیتی دقیق (گروه نژادی/قومی، سن، جنسیت) برای هر ارزیاب است.
- تکرارپذیری بالا برای هر آیتم: هر آیتم گفتگو تعداد زیادی امتیاز دریافت میکند تا قدرت آماری لازم برای تحلیل زیرگروهها تضمین شود.
- نمایش مبتنی بر توزیع: رأیهای ایمنی را بهعنوان توزیعهایی در میان گروههای جمعیتی کدگذاری میکند و امکان کاوش راهبردهای تجمیع مختلف فراتر از رأی اکثریت را فراهم میآورد.
- چارچوبی برای تحلیل: مبنایی برای تعیین معیارهای جدیدی فراهم میکند که امتیازات ارزیابان را با دستهبندیهای جمعیتی تلاقی میدهند.
2. چارچوب مجموعهداده DICES
DICES بهعنوان یک منبع و معیار مشترک ساخته شده است تا در طول ارزیابی ایمنی، دیدگاههای متنوع را محترم بشمارد. این مجموعهداده از یک برچسب حقیقت واحد فراتر میرود.
2.1. اصول طراحی کلیدی
- تنوع هدفمند: گروه ارزیابان به گونهای ساختار یافته است که نسبتهای متعادلی از زیرگروههای جمعیتی کلیدی داشته باشد.
- دقت آماری: تکرارپذیری بالای امتیازات برای هر آیتم گفتگو، امکان تحلیل قوی از توافق، اختلافنظر و واریانس درونگروهی و بینگروهی را فراهم میکند.
- ایمنی بافتمحور: امتیازدهی بر اساس گفتگوهای انسان-ربات است و ایمنی را در یک بافت پویا و تعاملی ثبت میکند، نه بر اساس درخواستهای مجزا.
2.2. ترکیب و آمار مجموعهداده
ویژگیهای جمعیتی ارزیابان
گروهی متنوع از گروههای نژادی/قومی، بازههای سنی و جنسیتهای مختلف.
امتیازات هر آیتم
تعداد تکرار بهطور استثنایی بالا (مثلاً ۵۰+ امتیاز برای هر گفتگو) برای امکان تحلیل قدرتمند زیرگروهها.
ساختار داده
هر نقطه داده، یک گفتگو، پروفایل جمعیتی یک ارزیاب و امتیاز ایمنی او (مثلاً مقیاس لیکرت یا دستهای) را به هم پیوند میدهد.
3. روششناسی فنی و چارچوب تحلیل
نوآوری فنی در این است که ایمنی نه بهعنوان یک مقدار اسکالر، بلکه بهعنوان یک توزیع چندبعدی در نظر گرفته میشود.
3.1. نمایش ایمنی بهعنوان یک توزیع
برای یک آیتم گفتگوی معین $i$، ایمنی نه با یک برچسب واحد $y_i$، بلکه با توزیعی از امتیازات در میان $K$ گروه جمعیتی نمایش داده میشود. فرض کنید $R_{i,g}$ مجموعه امتیازات برای آیتم $i$ از ارزیابان گروه $g$ باشد. پروفایل ایمنی برای آیتم $i$ بردار زیر است: $\mathbf{S}_i = (\bar{R}_{i,1}, \bar{R}_{i,2}, ..., \bar{R}_{i,K})$، که در آن $\bar{R}_{i,g}$ یک گرایش مرکزی (مثلاً میانگین، میانه) از امتیازات در گروه $g$ است.
معیارهای واریانس مانند $\sigma^2_{i,g}$ (واریانس درونگروهی) و $\Delta_{i, g1, g2} = |\bar{R}_{i,g1} - \bar{R}_{i,g2}|$ (اختلاف بینگروهی) را میتوان برای کمّیسازی ابهام و تفاوت دیدگاهی محاسبه کرد.
3.2. راهبردهای تجمیع و معیارها
DICES امکان مقایسه روشهای مختلف تجمیع برچسب را فراهم میکند:
- رأی اکثریت (خط پایه): $y_i^{maj} = \text{mode}(\bigcup_{g=1}^{K} R_{i,g})$
- تجمیع وزنی جمعیتی: $y_i^{weighted} = \sum_{g=1}^{K} w_g \cdot \bar{R}_{i,g}$، که در آن $w_g$ میتواند متناسب با اندازه جمعیت یا وزنهای دیگر متمرکز بر برابری باشد.
- حداقل ایمنی (محافظهکارانه): $y_i^{min} = \min(\bar{R}_{i,1}, ..., \bar{R}_{i,K})$ دیدگاه حساسترین گروه را در اولویت قرار میدهد.
معیارهای جدیدی مانند شاخص اختلاف جمعیتی (DDI) یا امتیاز همراستایی زیرگروه را میتوان برای اندازهگیری چگونگی تغییر عملکرد مدل در میان گروهها استخراج کرد.
4. نتایج آزمایشی و یافتههای کلیدی
در حالی که گزیده PDF ارائه شده یک پیشچاپ تحت بررسی است و حاوی نتایج کامل نیست، چارچوب پیشنهادی منجر به چندین یافته مورد انتظار میشود:
- واریانس قابل توجه: سطوح بالایی از اختلاف درونگروهی و بینگروهی در مورد برچسبهای ایمنی برای زیرمجموعه قابل توجهی از آیتمهای گفتگو، که مفهوم استاندارد ایمنی جهانی را به چالش میکشد.
- همبستگیهای جمعیتی: تفاوتهای سیستماتیک در امتیازات ایمنی در خطوط سنی، نژادی/قومی و جنسیتی برای موضوعات یا لحنهای گفتگوی خاص (مثلاً طنز، صراحت، ارجاعات فرهنگی) مشاهده میشود.
- تأثیر تجمیع: انتخاب راهبرد تجمیع (اکثریت در مقابل وزنی در مقابل حداقل) منجر به برچسبهای ایمنی نهایی متفاوت از نظر مادی برای ۱۵-۳۰٪ از آیتمها میشود و به طور قابل توجهی بر گفتگوهایی که یک مدل برای اجتناب یا اجازه دادن آموزش میبیند تأثیر میگذارد.
- شکاف ارزیابی مدل: مدلی که توسط مجموعه آزمایش تجمیعشده با رأی اکثریت «ایمن» تلقی میشود، ممکن است هنگام ارزیابی در برابر ترجیحات زیرگروههای جمعیتی اقلیت خاص، نرخ خطای بهطور قابل توجهی بالاتری (مثلاً +۲۰٪ منفی/مثبت کاذب) نشان دهد.
توضیح نمودار (مفهومی): یک نمودار چندوجهی برای ارائه نتایج محوری خواهد بود. پنل A یک نقشه حرارتی از میانگین امتیازات ایمنی (مقیاس ۱-۵) برای ۱۰۰ آیتم گفتگو (ردیفها) در میان ۴ گروه جمعیتی (ستونها) نشان میدهد که الگوهای همراستایی و اختلاف را آشکار میکند. پنل B یک نمودار میلهای است که تصمیم نهایی «ایمن/ناایمن» را برای ۲۰ آیتم مبهم تحت سه راهبرد تجمیع مقایسه میکند و بهطور بصری پیامد انتخاب تجمیع را نشان میدهد. پنل C دقت مدل را برای گروه اکثریت در مقابل دقت آن برای یک گروه اقلیت خاص ترسیم میکند، که بسیاری از نقاط زیر خط برابری قرار میگیرند و نابرابری عملکرد را نشان میدهند.
5. چارچوب تحلیل: یک مطالعه موردی عملی
سناریو: یک تیم توسعه در حال تنظیم دقیق یک دستیار هوش مصنوعی گفتگومحور برای یک برنامه خدمات مشتری جهانی است. آنها از یک مجموعهداده ایمنی استاندارد برای فیلتر کردن دادههای آموزشی استفاده میکنند. اکنون میخواهند از DICES برای حسابرسی همراستایی ایمنی مدل خود برای پایگاههای کاربری مختلف استفاده کنند.
مراحل تحلیل:
- حسابرسی عملکرد زیرگروه: مدل را روی درخواستهای گفتگوی DICES اجرا کنید. پاسخهای تولیدشده آن را جمعآوری کنید. یک گروه جدید و متنوع از نظر جمعیتی از ارزیابان (یا از امتیازات اصلی DICES استفاده کنید اگر درخواستها مشابه باشند) را وادار کنید تا ایمنی این گفتگوهای تولیدشده توسط مدل را ارزیابی کنند. دقت/بازخوانی/F1 را برای تشخیص ایمنی بهطور جداگانه برای ارزیابان در گروه A (مثلاً سنین ۱۸-۳۰، آمریکای شمالی) و گروه B (مثلاً سنین ۵۰+، جنوب شرق آسیا) محاسبه کنید.
- شناسایی کانونهای اختلاف: موضوعات یا سبکهای گفتگویی را که شکاف عملکرد بین گروه A و گروه B در آنها بیشترین است (مثلاً تفاوت >۳۰٪ در نرخ ایمنی درکشده) جدا کنید. این امر مناطق خاصی را نشانهگذاری میکند که همراستایی ایمنی مدل در آنها قوی نیست.
- کاوش راهبردهای تجمیع: تنظیم دقیق مدل را با استفاده از برچسبهای ایمنی استخراجشده از DICES با استفاده از: الف) رأی اکثریت، ب) یک طرح وزنی که جمعیت هدف منطقهای (گروه B) را بیش از حد نمایندگی میکند، شبیهسازی کنید. رفتار مدلهای حاصل را مقایسه کنید. چارچوب DICES دادههایی را برای این انتخاب آگاهانه فراهم میکند تا اینکه به قاعده اکثریت پیشفرض متوسل شویم.
- نتیجه: تیم کشف میکند که مدل فعلی آنها ۲۵٪ احتمال بیشتری دارد که پاسخهایی تولید کند که توسط ارزیابان مسنتر جنوب شرق آسیا در بافتهای مذاکره بهعنوان «تحمیلگر» یا «ناایمن» درک میشوند. آنها تصمیم میگیرند در طول چرخه تنظیم دقیق بعدی از یک تابع زیان وزنی جمعیتی استفاده کنند تا همراستایی برای آن بخش کاربری کلیدی را بهبود بخشند.
6. کاربردهای آتی و جهتگیریهای پژوهشی
- سازگاری پویای ایمنی: مدلهایی که میتوانند بافت/ویژگیهای جمعیتی کاربر را استنباط کنند (با رعایت حریم خصوصی مناسب) و محافظهای ایمنی/گفتگویی خود را در زمان واقعی تطبیق دهند، با استفاده از چارچوبهایی مانند DICES بهعنوان مرجعی برای واریانس قابل قبول.
- همراستایی هوش مصنوعی شخصیسازیشده: گسترش پارادایم از ایمنی به سایر کیفیتهای ذهنی (مفید بودن، طنز، ادب) که به کاربران اجازه میدهد شخصیتهای هوش مصنوعی را در محدودهای از ترجیحات تأییدشده توسط جامعه تنظیم کنند.
- تدوین سیاست و استاندارد: اطلاعرسانی به استانداردهای صنعتی و نظارتی برای ارزیابی ایمنی هوش مصنوعی. DICES روششناسیای برای تعریف آستانههای «اختلاف نظر معقول» و الزام به ارزیابیهای تأثیر زیرگروه، مشابه حسابرسیهای انصاف در الگوریتمهای استخدام ارائه میدهد.
- آموزش مدل بینفرهنگی: استفاده فعال از مجموعهدادههایی مانند DICES برای آموزش مدلهایی که بهطور صریح از تنوع دیدگاهی آگاه هستند، احتمالاً از طریق یادگیری چندوظیفهای یا معماریهای مدلسازی ترجیحی الهامگرفته از یادگیری تقویتی از بازخورد انسانی (RLHF) اما با چندین مدل پاداش خاص گروه.
- مطالعات طولی: ردیابی چگونگی تکامل ادراک ایمنی درون و میان گروههای جمعیتی در طول زمان در پاسخ به تغییرات فناورانه و اجتماعی، که مستلزم نسخههای بهروزرسانیشده مجموعهداده DICES است.
7. مراجع
- Aroyo, L., et al. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
- Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.
- Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Findings of the Association for Computational Linguistics: EMNLP 2020.
- Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
- Prabhakaran, V., Denton, E., Webster, K., & Conover, A. (2022). Creativity, Caution, and Collaboration: Understanding and Supporting Human-AI Co-creativity. Proceedings of the ACM on Human-Computer Interaction.
- Xu, J., et al. (2020). RECAST: Enabling User Recourse and Interpretability of Toxicity Detection Models with Interactive Visualization. Proceedings of the ACM on Human-Computer Interaction.
8. تحلیل کارشناسی: بینش کلیدی، جریان منطقی، نقاط قوت و ضعف، بینشهای عملی
بینش کلیدی
DICES فقط یک مجموعهداده دیگر نیست؛ این یک چالش مستقیم به مبانی معرفتشناختی ارزیابی ایمنی هوش مصنوعی جریان اصلی است. بینش کلیدی مقاله این است که «ایمنی» در گفتگو یک ویژگی دودویی متن نیست، بلکه یک ویژگی برآمده از تعامل بین متن و یک بافت انسانی خاص است. با در نظر گرفتن اختلافنظر بهعنوان نویزی که باید حذف شود، ما در حال ساختن مدلهایی برای یک کاربر فرضی و میانگین آماری بودهایم که وجود ندارد. این کار، در کنار پژوهشهای انتقادی مانند کار Bender و همکاران (۲۰۲۱) در مورد «طوطیهای تصادفی»، ما را وادار به بازنگری میکند: تلاش ما برای ایمنی مقیاسپذیر و خودکار ممکن است بهطور سیستماتیک همان تنوعی را که ادعای محافظت از آن را داریم، محو کند.
جریان منطقی
استدلال قانعکننده و روشمند است: ۱) شناسایی نقص: مجموعهدادههای ایمنی فعلی یک حقیقت واحد را فرض میکنند و ذهنیت را پنهان میکنند. ۲) پیشنهاد پادزهر: برای ثبت واقعیت، به دادههایی نیاز داریم که واریانس را حفظ کرده و آن را به ویژگیهای جمعیتی پیوند دهند. ۳) ساخت ابزار: بنابراین، DICES — با ساختار جمعیتی هدفمند و تکرارپذیری بالای آن. ۴) نشان دادن کاربرد: این امکان تحلیلهای جدیدی (معیارهای مبتنی بر توزیع، مقایسه تجمیعها) را فراهم میکند که پیامدهای انتخابهای ما را آشکار میکند. منطق از نقد به راهحل سازنده بهطور یکپارچه حرکت میکند.
نقاط قوت و ضعف
نقاط قوت: چارچوببندی مفهومی بزرگترین دارایی آن است. تغییر از «کاهش سوگیری» به «سنجش تنوع» بیش از یک تغییر معنایی است — این یک بازجهتدهی اساسی از یک مدل کاستیمحور به یک مدل کثرتگرا است. طراحی فنی (تکرارپذیری بالا، کدگذاری توزیع) قوی است و مستقیماً به هدف فلسفی آن خدمت میکند. این یک معیار مورد نیاز مبرم برای یک زمینه نوپای ارزیابی ایمنی فراگیر فراهم میکند.
نقاط ضعف و شکافها: وضعیت پیشچاپ به این معنی است که نتایج عینی و در مقیاس بزرگ در انتظار هستند و ما باید به وعده چارچوب اعتماد کنیم. یک شکاف قابل توجه چالش عملیاتیسازی است: یک تیم محصول واقعاً چگونه از این استفاده میکند؟ انتخاب یک راهبرد تجمیع (اکثریت، وزنی، حداقل) اکنون یک تصمیم اخلاقی و محصولی پیچیده است، نه فقط یک تصمیم فنی. مجموعهداده همچنین خطر عینیت بخشیدن به دستهبندیهای جمعیتی که استفاده میکند را دارد؛ مقاله به تقاطعگرایی اشاره میکند اما تحلیل ممکن است هنوز «سن» و «نژاد» را بهعنوان محورهای مستقل در نظر بگیرد. علاوه بر این، مانند RLHF اثر Ouyang و همکاران (۲۰۲۲)، این مجموعهداده به ارزیابان انسانی متکی است و تمام پیچیدگیها، هزینهها و ناسازگاریهای بالقوه آن فرآیند را به ارث میبرد.
بینشهای عملی
برای متخصصان و رهبران هوش مصنوعی:
- حسابرسی فوری: از چارچوب DICES (حتی قبل از انتشار کامل مجموعهداده) برای انجام یک حسابرسی نابرابری زیرگروه بر روی طبقهبندهای ایمنی فعلی خود استفاده کنید. میتوانید با یک نظرسنجی جمعیتی کوچکتر و داخلی شروع کنید. سؤال این نیست که «آیا مدل ما ایمن است؟» بلکه این است که «برای چه کسی مدل ما ایمن است و در کجا شکست میخورد؟»
- تعریف مجدد معیارهای موفقیت: الزام کنید که گزارشهای ارزیابی ایمنی شامل معیارهای واریانس (مثلاً انحراف معیار امتیازات در بخشهای کلیدی کاربران) در کنار دقت سنتی باشند. یک مدل با دقت ۹۵٪ اما با واریانس بینگروهی بالا، پرریسکتر از مدلی با دقت ۹۰٪ و واریانس پایین است.
- سرمایهگذاری در معماری مدلسازی ترجیح: فراتر از یک «مدل پاداش» ایمنی واحد بروید. مدلهای پاداش چندسر یا شبکههای ترجیح شرطی را کاوش کنید که میتوانند نگاشت از (بافت، پروفایل کاربر) به مرزهای ایمنی مناسب را یاد بگیرند، با استفاده از مجموعهدادههایی مانند DICES برای آموزش.
- تعبیه اخلاقشناسان و دانشمندان علوم اجتماعی در حلقه: انتخاب راهبرد تجمیع برای برچسبهای آموزشی شما یک تصمیم سیاست محصول با پیامدهای اخلاقی است. این تصمیم باید بهطور مشارکتی گرفته شود، نه صرفاً توسط مهندسان ML که برای یک معیار واحد بهینهسازی میکنند.
DICES با موفقیت استدلال میکند که نادیده گرفتن تنوع یک ریسک فنی وجودی است. گام بعدی ساختن روشهای مهندسی و مدیریت محصولی است که بتوانند پیچیدگیای را که آشکار میکند، مدیریت کنند.