مجموعة بيانات DICES: التنوع في تقييم أمان الذكاء الاصطناعي المحادثي

1. المقدمة

أدى الانتشار الواسع لأنظمة الذكاء الاصطناعي المحادثي القائمة على النماذج اللغوية الكبيرة (LLMs) إلى جعل تقييم الأمان قضية بالغة الأهمية. غالبًا ما تعتمد المناهج التقليدية على مجموعات بيانات ذات فصل ثنائي واضح بين المحتوى "الآمن" و"غير الآمن"، وهو ما يبسط بطبيعته الطبيعة الذاتية والمتأثرة ثقافيًا لمفهوم الأمان. تعالج مجموعة بيانات DICES (التنوع في تقييم الذكاء الاصطناعي المحادثي للأمان)، التي قدمها باحثون من Google Research وجامعة مدينة لندن وجامعة كامبريدج، هذه الفجوة من خلال توفير مورد يلتقط التباين والغموض والتنوع المتأصل في وجهات النظر البشرية حول أمان الذكاء الاصطناعي.

تم تصميم DICES وفقًا لثلاثة مبادئ أساسية: 1) تضمين معلومات ديموغرافية مفصلة عن المقيمين (مثل المجموعة العرقية/الإثنية، العمر، الجنس)، 2) تكرار عالٍ للتقييمات لكل عنصر محادثة لضمان القوة الإحصائية، و3) ترميز أصوات المقيمين كتوزيعات عبر الفئات الديموغرافية لتمكين استكشاف استراتيجيات تجميع مختلفة. يتجاوز هذا التصميم فكرة "الحقيقة الأساسية" الواحدة ويعامل الأمان بدلاً من ذلك على أنه بناء متعدد الأوجه ويعتمد على التركيبة السكانية.

1.1. الإسهامات

الإسهامات الرئيسية لمجموعة بيانات DICES والبحث المصاحب لها هي:

تنوع المقيمين كخاصية أساسية: تحويل التركيز من التخفيف من "التحيز" إلى احتضان وتحليل "التنوع" في آراء المقيمين.
إطار للتحليل الدقيق: توفير هيكل لمجموعة البيانات يسمح باستكشاف متعمق لكيفية تقاطع تصورات الأمان مع الفئات الديموغرافية.
معيار للتقييم الدقيق: تأسيس DICES كمورد مشترك لتقييم أنظمة الذكاء الاصطناعي المحادثي بطريقة تحترم وجهات النظر المتنوعة، متجاوزة درجات الأمان الأحادية.

2. الفكرة الأساسية والتسلسل المنطقي

الفكرة الأساسية: العيب الأساسي في تقييم أمان الذكاء الاصطناعي السائد ليس نقصًا في البيانات، بل نقصًا في بيانات تمثيلية ومفككة. إن معاملة الأمان على أنه مهمة تصنيف ثنائية موضوعية هو تبسيط مفرط وخطير يمحو الفروق الدقيقة الثقافية ويمكن أن يؤدي إلى أنظمة تكون "آمنة" فقط لفئة ديموغرافية مهيمنة. تحدد DICES بشكل صحيح أن الأمان هو بناء اجتماعي، ويجب أن يكون تقييمه إحصائيًا، وليس حتميًا.

التسلسل المنطقي: حجة الورقة البحثية حادة للغاية: 1) يعتمد ضبط النماذج اللغوية الكبيرة الحالي للأمان على مجموعات بيانات مبسطة. 2) يتجاهل هذا التبسيط التباين الذاتي، وهو أمر إشكالي بشكل خاص للأمان - وهو مفهوم اجتماعي الموقع. 3) لذلك، نحتاج إلى فئة جديدة من مجموعات البيانات تلتقط هذا التباين صراحةً من خلال التنوع الديموغرافي والتكرار العالي للمقيمين. 4) توفر DICES هذا، مما يمكن التحليلات التي تكشف أي المجموعات تجد أي محتوى غير آمن وإلى أي درجة. يحطم هذا التسلسل منطقيًا أسطورة معيار أمان عالمي ويستبدلها بإطار لفهم مشهد الأمان.

3. نقاط القوة والثغرات

نقاط القوة:

تصميم يحول النموذج السائد: الانتقال من التسميات الثنائية إلى التوزيعات الديموغرافية هو ميزته القاتلة. إنه يجبر المجال على مواجهة تعددية الأمان.
صرامة إحصائية: التكرار العالي لكل عنصر غير قابل للتفاوض بالنسبة للتحليل الديموغرافي ذي المعنى، وتحققه DICES بشكل صحيح. إنه يوفر القوة الإحصائية اللازمة للانتقال من القصص الفردية.
قابل للتطبيق في تطوير النماذج: لا يكتفي بتشخيص المشكلة؛ بل يوفر هيكلاً (توزيعات) يمكن أن يوجه مباشرةً عمليات الضبط الدقيق والمقاييس الأكثر دقة للتقييم، على غرار كيف حسّن قياس عدم اليقين من معايرة النماذج.

الثغرات والأسئلة المفتوحة:

"عنق الزجاجة الديموغرافي": على الرغم من أنها تتضمن فئات ديموغرافية رئيسية، فإن اختيار الفئات (العرق، العمر، الجنس) هو نقطة بداية. إنها تفوت التقاطعية (مثل الشابات السوداوات) ومحاور أخرى مثل الوضع الاجتماعي الاقتصادي، الإعاقة، أو الجغرافيا الثقافية، وهي بنفس الأهمية للحصول على صورة كاملة.
تحدي التشغيل: الورقة البحثية خفيفة في شرح الكيفية. كيف بالضبط يجب على مطور النموذج استخدام هذه التوزيعات؟ هل تضبط النموذج ليتوافق مع المتوسط؟ المنوال؟ أم تطوير نظام يمكنه تكييف مرشح الأمان الخاص به بناءً على الخصائص الديموغرافية المستنتجة للمستخدم؟ الخطوة من البيانات الغنية إلى الممارسة الهندسية هي التحدي التالي الذي يجب تجاوزه.
لقطة ثابتة: تتطور المعايير المجتمعية حول الأمان. مجموعة البيانات، بغض النظر عن مدى تنوعها، هي لقطة ثابتة. يفتقر الإطار إلى مسار واضح للتحديث المستمر والديناميكي لهذه التصورات الأمنية، وهو تحدي تواجهه مجموعات البيانات الأخلاقية الثابتة الأخرى أيضًا.

4. رؤى قابلة للتطبيق

لممارسي الذكاء الاصطناعي وقادة المنتجات:

مراجعة فورية: استخدم إطار عمل DICES (التوزيعات، وليس المتوسطات) لمراجعة مصنفات الأمان الحالية لديك. من المرجح أن تجد أنها تتماشى مع شريحة ديموغرافية ضيقة. هذا يمثل خطرًا على السمعة والمنتج.
إعادة تعريف مقياسك: توقف عن الإبلاغ عن "درجة أمان" واحدة. أبلغ عن ملف تعريف للأمان: "تتوافق مخرجات هذا النموذج مع تصورات الأمان للمجموعة (أ) بنسبة اتفاق X% وتتباعد عن المجموعة (ب) في الموضوعات Y وZ." الشفافية تبني الثقة.
استثمر في أمان تكيفي: الهدف النهائي ليس نموذجًا واحدًا آمنًا تمامًا، بل نماذج يمكنها فهم السياق، بما في ذلك سياق المستخدم. يجب أن يتحول الاستثمار البحثي من مرشحات الأمان الأحادية نحو آليات أمان واعية بالسياق وربما مخصصة للمستخدم، مما يضمن أن سلوك النموذج مناسب لجمهوره. يؤكد العمل على محاذاة القيم في أخلاقيات الذكاء الاصطناعي، مثل ذلك الذي نوقش في معهد ستانفورد للذكاء الاصطناعي المتمحور حول الإنسان (HAI)، على أن المحاذاة يجب أن تكون مع تعدد القيم البشرية، وليس مع مجموعة واحدة.

5. الإطار التقني وتصميم مجموعة البيانات

تم بناء مجموعة بيانات DICES حول محادثات بين الإنسان والروبوت يتم تقييم أمانها من قبل مجموعة كبيرة ومتعددة الطبقات ديموغرافيًا من المقيمين. الابتكار الرئيسي هو هيكل البيانات: بدلاً من تخزين تسمية واحدة (مثل "غير آمن")، يرتبط كل عنصر محادثة بمصفوفة متعددة الأبعاد من التقييمات مقسمة حسب الفئات الديموغرافية.

لمحادثة معينة $c_i$، لا توفر مجموعة البيانات $label(c_i) \in \{0, 1\}$. بدلاً من ذلك، توفر مجموعة من استجابات المقيمين $R_i = \{r_{i,1}, r_{i,2}, ..., r_{i,N}\}$، حيث كل استجابة $r_{i,j}$ هي مجموعة مرتبطة $(v_{i,j}, d_{i,j})$. هنا، $v_{i,j}$ هو الحكم الأمني (على سبيل المثال، على مقياس ليكرت أو ثنائي)، و $d_{i,j}$ هو متجه يرمز خصائص المقيم الديموغرافية (على سبيل المثال، $d_{i,j} = [\text{الجنس}=G1, \text{العمر}=A2, \text{الإثنية}=E3]$).

5.1. التمثيل الرياضي لتوزيعات المقيمين

تأتي القوة التحليلية الأساسية من تجميع هذه التقييمات الفردية في توزيعات. لشريحة ديموغرافية محددة $D_k$ (على سبيل المثال، "آسيوي، 30-39، أنثى")، يمكننا حساب توزيع درجات الأمان للمحادثة $c_i$:

$P(\text{الدرجة} = s | c_i, D_k) = \frac{|\{r \in R_i : v(r)=s \land d(r) \in D_k\}|}{|\{r \in R_i : d(r) \in D_k\}|}$

هذا يسمح بحساب ليس فقط متوسط درجة الأمان $\mu_{i,k}$، بل الأهم من ذلك، مقاييس التباين ($\sigma^2_{i,k}$)، والغموض (على سبيل المثال، إنتروبيا التوزيع $H(P)$)، والتباعد بين المجموعات الديموغرافية (على سبيل المثال، تباعد كولباك-ليبلر $D_{KL}(P_{i,k} || P_{i,l})$). هذا الشكل الرياضي حاسم للانتقال إلى ما هو أبعد من المتوسطات المبسطة.

6. النتائج التجريبية والتحليل

بينما المقتطف المقدم من PDF هو نسخة أولية قيد المراجعة ولا يحتوي على نتائج تجريبية كاملة، فإن مجموعة البيانات الموصوفة تمكن من عدة تحليلات رئيسية يتم عرضها عادةً في مخططات:

المخطط 1: خريطة حرارية للاختلاف الديموغرافي: تصور مصفوفي يظهر التباعد الزوجي (على سبيل المثال، مسافة جنسن-شانون) في توزيعات درجات الأمان بين مجموعات ديموغرافية مختلفة (على سبيل المثال، المجموعة أ: ذكر أبيض 50+ مقابل المجموعة ب: أنثى من أصل إسباني 18-29) عبر عينة من موضوعات المحادثة المثيرة للجدل. ستسلط هذه المخططات الضوء بوضوح على النقاط التي تتباعد فيها التصورات بقوة.
المخطط 2: مخطط مبعثر للغموض مقابل الإجماع: رسم كل عنصر محادثة بناءً على متوسط درجة الأمان (المحور السيني) وإنتروبيا توزيع التقييم الإجمالي الخاص به (المحور الصادي). سيفصل هذا العناصر التي تُرى عالميًا على أنها آمنة/غير آمنة (إنتروبيا منخفضة، إجماع عالٍ) عن تلك الغامضة للغاية (إنتروبيا عالية).
المخطط 3: مخطط شريطي لتفكيك أداء النموذج: مقارنة أداء (على سبيل المثال، درجة F1) مصنف أمان قياسي عند تقييمه مقابل "الحقيقة الأساسية" المحددة من قبل مجموعات ديموغرافية مختلفة. يشير الانخفاض الكبير في الأداء لمجموعات معينة إلى أن محاذاة النموذج منحازة.

قوة DICES تكمن في أنها تولد البيانات اللازمة لإنشاء هذه المخططات، محولة التقييم من رقم واحد إلى لوحة تحكم متعددة الأوجه.

7. إطار التحليل: دراسة حالة مثال

السيناريو: يولد ذكاء اصطناعي محادثي نكتة ردًا على مطالبة مستخدم. تسميها بيانات التدريب والتقييم القياسي للأمان بأنها "آمنة" (فكاهة).

التحليل القائم على DICES:

استرجاع البيانات: استعلام مجموعة بيانات DICES عن عناصر محادثة مماثلة تتضمن فكاهة أو نكات حول مواضيع ذات صلة.
تحليل التوزيع: فحص توزيعات تقييم الأمان. قد تجد:
- $P(\text{غير آمن} | \text{العمر}=18-29) = 0.15$
- $P(\text{غير آمن} | \text{العمر}=60+) = 0.65$
- $P(\text{غير آمن} | \text{الإثنية}=E1) = 0.20$
- $P(\text{غير آمن} | \text{الإثنية}=E2) = 0.55$
التفسير: "أمان" هذه النكتة ليس حقيقة بل هو دالة للخصائص الديموغرافية. مخرجات النموذج، على الرغم من توافقها تقنيًا مع قاعدة "أمان" واسعة، تحمل مخاطر عالية بأن يُنظر إليها على أنها مسيئة من قبل كبار السن وأعضاء المجموعة الإثنية E2.
الإجراء: سيكون النهج المبسط هو حظر جميع النكات. نهج دقيق، مستنير بـ DICES، يمكن أن يكون: أ) وضع علامة على هذا النوع من المحتوى على أنه "ذو تباين ديموغرافي عالٍ"، ب) تطوير وحدة سياق مستخدم تسمح للنموذج بتعديل أسلوب الفكاهة الخاص به، أو ج) تقديم ملاحظة شفافية: "يستخدم هذا الرد الفكاهة. تختلف تصورات الفكاهة على نطاق واسع عبر الثقافات والفئات العمرية."

توضح دراسة الحالة هذه كيف يحول DICES السؤال من "هل هذا آمن؟" إلى "آمن لمن، وتحت أي ظروف؟"

8. التطبيقات المستقبلية واتجاهات البحث

يفتح إطار عمل DICES عدة مسارات حاسمة للعمل المستقبلي:

نماذج أمان مخصصة وتكيفية: النقطة المنطقية النهائية ليست مرشح أمان واحد يناسب الجميع، بل نماذج يمكنها استنتاج سياق المستخدم ذي الصلة (مع ضمانات خصوصية مناسبة) وتكييف عتبات الأمان أو استراتيجيات توليد المحتوى وفقًا لذلك. يتوافق هذا مع الاتجاه الأوسع في التعلم الآلي نحو التخصيص، كما هو الحال في أنظمة التوصية.
تقييم ديناميكي ومستمر: تطوير طرق لتحديث مجموعات بيانات تصورات الأمان مثل DICES بشكل مستمر وشبه فوري، لالتقاط المعايير الاجتماعية المتطورة والخلافات الناشئة، على غرار كيفية تحديث النماذج اللغوية نفسها باستمرار.
أدوات تحليل تقاطعية: توسيع الإطار الديموغرافي لالتقاط الهويات التقاطعية بشكل أفضل، والانتقال من الفئات المستقلة إلى فهم التجارب المركبة للأفراد المنتمين إلى مجموعات أقليات متعددة.
التكامل مع التعلم المعزز من التغذية الراجعة البشرية (RLHF): استخدام التغذية الراجعة البشرية المفككة من مجموعات بيانات مثل DICES لتدريب نماذج مكافأة حساسة للمحاذاة الديموغرافية، مما يمنع التحسين لمفهوم واحد وربما ضيق للحوار "الجيد" أو "الآمن". يعالج هذا قيدًا معروفًا في RLHF القياسي، كما سلطت عليه الأضواء أبحاث من Anthropic وDeepMind حول الإشراف القابل للتوسع.
التوسع العالمي: توسيع نطاق جمع البيانات إلى مستوى عالمي حقًا، ليشمل الثقافات واللغات غير الغربية، لمكافحة التحيز المركزي الأنجلو-أمريكي السائد في العديد من موارد أمان الذكاء الاصطناعي.

9. المراجع

Aroyo, L., Taylor, A. S., Díaz, M., Homan, C. M., Parrish, A., Serapio-García, G., Prabhakaran, V., & Wang, D. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
Bommasani, R., et al. (2021). On the Opportunities and Risks of Foundation Models. Stanford Center for Research on Foundation Models (CRFM).
Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems (NeurIPS).
Stanford Institute for Human-Centered AI (HAI). (2023). The AI Index Report 2023. Stanford University.
Weidinger, L., et al. (2021). Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (تم الاستشهاد به كمثال لإطار عمل - CycleGAN - يتعامل مع بيانات غير مقترنة ومتعددة الوسائط، على غرار تعامل DICES مع الأحكام البشرية المتنوعة وغير المتوافقة).