भाषा चुनें

DICES डेटासेट: संवादी AI सुरक्षा मूल्यांकन की विविधता

DICES डेटासेट का परिचय, जो संवादी AI के परिष्कृत सुरक्षा मूल्यांकन के लिए है। यह विभिन्न जनसांख्यिकीय पृष्ठभूमि में मानवीय दृष्टिकोणों की विविधता को दर्शाता है, जो एकल मानक उत्तर मूल्यांकन पद्धति से आगे बढ़ता है।
agi-friend.com | PDF Size: 0.4 MB
रेटिंग: 4.5/5
आपकी रेटिंग
आपने इस दस्तावेज़ को पहले ही रेट कर दिया है
PDF दस्तावेज़ कवर - DICES डेटासेट: संवादी AI सुरक्षा मूल्यांकन के लिए विविधता

1. परिचय

बड़े भाषा मॉडल (LLMs) पर आधारित संवादात्मक कृत्रिम बुद्धिमत्ता प्रणालियों की बढ़ती लोकप्रियता ने सुरक्षा मूल्यांकन को एक महत्वपूर्ण मुद्दा बना दिया है। पारंपरिक तरीके आमतौर पर ऐसे डेटासेट पर निर्भर करते हैं जिनमें "सुरक्षित" और "असुरक्षित" सामग्री के बीच एक स्पष्ट द्विआधारी विभाजन होता है, जो सुरक्षा के अंतर्निहित व्यक्तिपरकता और सांस्कृतिक संदर्भ को अत्यधिक सरल बना देता है। यह पत्र प्रस्तुत करता हैDICES (संवादात्मक AI सुरक्षा मूल्यांकन विविधता)डेटासेट, जिसका उद्देश्य विभिन्न आबादी के बीच सुरक्षा धारणा में अंतर को पकड़ना और विश्लेषण करना है।

इसका समाधान किया गया मूल समस्या यह है कि मौजूदा सुरक्षा डेटासेट जनसांख्यिकी और दृष्टिकोण विविधता की उपेक्षा करते हैं, जिससे मॉडल विशिष्ट उपयोगकर्ता समूहों के मानदंडों के साथ असंगत हो सकता है और "वास्तविक दुनिया के वातावरण" में हानिकारक या यहाँ तक कि विनाशकारी परिणाम उत्पन्न हो सकते हैं।

1.1. मुख्य योगदान

DICES डेटासेट और इस कार्य के मुख्य योगदान में शामिल हैं:

  • मूल्यांकनकर्ता विविधता: "पूर्वाग्रह" को कम करने के फोकस से हटकर मूल्यांकनकर्ताओं के विचारों की "विविधता" को स्वीकार करने और मापने की ओर ध्यान केंद्रित करना।
  • सूक्ष्म जनसांख्यिकीय एनोटेशन: प्रत्येक मूल्यांकनकर्ता की विस्तृत जनसांख्यिकीय जानकारी (नस्ल/जातीय समूह, आयु, लिंग) शामिल है।
  • उच्च पुनरावृत्ति एनोटेशन आइटम: प्रत्येक संवाद आइटम को उपसमूह विश्लेषण के लिए सांख्यिकीय शक्ति सुनिश्चित करने हेतु बड़ी संख्या में रेटिंग प्राप्त होती है।
  • वितरण-आधारित प्रतिनिधित्व: सुरक्षित मतदान को जनसांख्यिकीय समूहों में वितरण के रूप में एन्कोड करना, जो बहुमत मत से परे विभिन्न समुच्चय रणनीतियों की खोज को सक्षम बनाता है।
  • विश्लेषणात्मक ढांचा: यह मूल्यांकनकर्ताओं के स्कोर और जनसांख्यिकीय श्रेणियों को जोड़ने वाले नए मेट्रिक्स स्थापित करने का आधार प्रदान करता है।

2. DICES डेटासेट फ्रेमवर्क

DICES को एक साझा संसाधन और बेंचमार्क के रूप में बनाया गया है, जिसका उद्देश्य सुरक्षा मूल्यांकन प्रक्रिया में विविध दृष्टिकोणों का सम्मान करना है। यह एकल सही-उत्तर लेबल की सीमा से परे चला जाता है।

2.1. मूल डिज़ाइन सिद्धांत

  • सोद्देश्य विविधता: मूल्यांकनकर्ता पूल की संरचना इस प्रकार डिज़ाइन की गई है कि प्रमुख जनसांख्यिकीय उपसमूहों का अनुपात संतुलित रहे।
  • सांख्यिकीय कठोरता: प्रत्येक संवाद आइटम के लिए उच्च पुनरावृत्ति स्कोर समूह के भीतर और समूहों के बीच स्थिरता, मतभेद और विचरण के मजबूत विश्लेषण की अनुमति देते हैं।
  • प्रासंगिक सुरक्षा: रेटिंग मानव-मशीन संवाद पर आधारित है, जो गतिशील अंतःक्रिया परिदृश्यों में सुरक्षा को पकड़ती है, न कि अलग-थलग संकेतों के तहत सुरक्षा को।

2.2. डेटासेट संरचना एवं सांख्यिकीय जानकारी

मूल्यांकनकर्ता जनसांख्यिकी

विभिन्न जाति/जातीय समूहों, आयु वर्गों और लिंगों को शामिल करने वाला विविध मूल्यांकनकर्ता समूह।

प्रत्येक रेटिंग की संख्या

मजबूत उपसमूह विश्लेषण का समर्थन करने के लिए अत्यधिक उच्च पुनरावृत्ति टैगिंग संख्या (उदाहरण के लिए, प्रति संवाद 50 से अधिक रेटिंग)।

डेटा संरचना

प्रत्येक डेटा बिंदु एक संवाद, मूल्यांकनकर्ता की जनसांख्यिकीय प्रोफ़ाइल और उसकी सुरक्षा रेटिंग (जैसे, लिकर्ट स्केल या वर्गीकरण रेटिंग) से जुड़ा होता है।

3. तकनीकी विधियाँ एवं विश्लेषण ढाँचा

Its technological innovation lies in treating safety as a multidimensional distribution, rather than a scalar.

3.1. सुरक्षा को वितरण के रूप में व्यक्त करना

किसी दिए गए संवाद आइटम $i$ के लिए, सुरक्षा को एकल लेबल $y_i$ द्वारा नहीं, बल्कि $K$ जनसांख्यिकीय समूहों में फैले रेटिंग वितरण द्वारा दर्शाया जाता है। मान लीजिए $R_{i,g}$ समूह $g$ के मूल्यांकनकर्ताओं से आइटम $i$ के लिए रेटिंग का समुच्चय है। आइटम $i$ की सुरक्षा प्रोफ़ाइल वेक्टर है: $\mathbf{S}_i = (\bar{R}_{i,1}, \bar{R}_{i,2}, ..., \bar{R}_{i,K})$, जहां $\bar{R}_{i,g}$ समूह $g$ के भीतर रेटिंग का केंद्रीय प्रवृत्ति माप (जैसे, माध्य, माध्यिका) है।

अस्पष्टता और दृष्टिकोण भिन्नता को मात्रात्मक रूप से व्यक्त करने के लिए विचरण माप जैसे $\sigma^2_{i,g}$ (समूह-आंतरिक विचरण) और $\Delta_{i, g1, g2} = |\bar{R}_{i,g1} - \bar{R}_{i,g2}|$ (समूह-अंतर विवाद) की गणना की जा सकती है।

3.2. समुच्चयन रणनीति और मापन मापदंड

DICES विभिन्न लेबल एकत्रीकरण विधियों की तुलना करने का समर्थन करता है:

  • बहुमत मतदान (बेसलाइन): $y_i^{maj} = \text{mode}(\bigcup_{g=1}^{K} R_{i,g})$
  • जनसांख्यिकीय भारित समुच्चय: $y_i^{weighted} = \sum_{g=1}^{K} w_g \cdot \bar{R}_{i,g}$, जहाँ $w_g$ जनसंख्या के आकार के समानुपाती हो सकता है, या अन्य न्याय-केंद्रित भार अपनाए जा सकते हैं।
  • न्यूनतम सुरक्षा (रूढ़िवादी): $y_i^{min} = \min(\bar{R}_{i,1}, ..., \bar{R}_{i,K})$ सबसे संवेदनशील समूह के दृष्टिकोण को प्राथमिकता देता है।

नए मापदंड व्युत्पन्न किए जा सकते हैं, जैसेजनसांख्यिकीय मतभेद सूचकांक (DDI)उपसमूह संरेखण स्कोर, विभिन्न समूहों के बीच मॉडल प्रदर्शन में भिन्नता को मापने के लिए।

4. प्रयोगात्मक परिणाम और प्रमुख निष्कर्ष

हालांकि प्रदान की गई PDF सारांश एक पूर्व-मुद्रण है जिसकी समीक्षा चल रही है और इसमें पूर्ण परिणाम शामिल नहीं हैं, लेकिन प्रस्तावित ढांचा कई अपेक्षित निष्कर्षों की ओर इशारा करता है।

  • महत्वपूर्ण विचरण: काफी संख्या में संवाद मदों के लिए, सुरक्षा लेबल पर उच्च स्तर के समूह-आंतरिक और समूह-अंतर मतभेद देखे गए, जो सार्वभौमिक सुरक्षा मानकों की अवधारणा को चुनौती देते हैं।
  • जनसांख्यिकीय सहसंबंध: विशिष्ट विषयों या संवाद के स्वर (जैसे, हास्य, स्पष्टवादिता, सांस्कृतिक संदर्भ) पर, आयु, नस्ल/जातीयता और लिंग की रेखाओं के आधार पर सुरक्षा स्कोर में व्यवस्थित अंतर देखा गया।
  • समुच्चय रणनीति का प्रभाव: एकत्रीकरण रणनीति (बहुमत मतदान बनाम भारित बनाम न्यूनतम सुरक्षा) के चयन से 15-30% मदों पर अंतिम सुरक्षा लेबल में पर्याप्त भिन्नता आती है, जो इस बात को महत्वपूर्ण रूप से प्रभावित करता है कि मॉडल किन संवादों से बचने या किनकी अनुमति देने के लिए प्रशिक्षित किया जाएगा।
  • मॉडल मूल्यांकन अंतर: एक मॉडल जिसे बहुमत-एकत्रित परीक्षण सेट द्वारा "सुरक्षित" के रूप में निर्धारित किया गया है, विशिष्ट अल्पसंख्यक जनसांख्यिकीय उपसमूहों की प्राथमिकताओं के आधार पर मूल्यांकन करने पर काफी अधिक त्रुटि दर (उदाहरण के लिए, 20% की वृद्धि के साथ झूठी नकारात्मक/झूठी सकारात्मक दर) प्रदर्शित कर सकता है।

चार्ट विवरण (संकल्पनात्मक): परिणाम प्रस्तुत करने के लिए एक बहु-स्तरीय चार्ट मुख्य होगा। चित्र A, 4 जनसांख्यिकीय समूहों (स्तंभों) में 100 वार्तालाप आइटमों (पंक्तियों) के औसत सुरक्षा स्कोर (1-5 पैमाने) का हीटमैप दिखाता है, जो संरेखण और मतभेद के पैटर्न को प्रकट करता है। चित्र B एक बार चार्ट है जो तीन समग्र रणनीतियों के तहत 20 अस्पष्ट आइटमों के अंतिम "सुरक्षित/असुरक्षित" निर्णय की तुलना करता है, जो समग्र विकल्पों के परिणामों को स्पष्ट रूप से दर्शाता है। चित्र C, बहुसंख्यक समूह पर मॉडल की सटीकता और एक विशिष्ट अल्पसंख्यक समूह पर सटीकता के बीच संबंध को दर्शाता है, जहाँ कई बिंदु समानता रेखा से नीचे हैं, जो प्रदर्शन अंतर को दर्शाता है।

5. विश्लेषणात्मक ढांचा: एक व्यावहारिक केस अध्ययन

दृश्य: एक विकास टीम एक वैश्विक ग्राहक सेवा एप्लिकेशन के लिए एक संवादी AI सहायक को फाइन-ट्यून कर रही है। वे प्रशिक्षण डेटा को फ़िल्टर करने के लिए मानक सुरक्षा डेटासेट का उपयोग करते हैं। अब वे विभिन्न उपयोगकर्ता समूहों के प्रति अपने मॉडल की सुरक्षा संरेखण का ऑडिट करने के लिए DICES का उपयोग करना चाहते हैं।

विश्लेषण चरण:

  1. उपसमूह प्रदर्शन ऑडिट: DICES संवाद प्रॉम्प्ट पर मॉडल चलाएं। इसके जेनरेट किए गए उत्तर एकत्र करें। एक नए, जनसांख्यिकीय रूप से विविध मूल्यांकनकर्ता पूल (या यदि प्रॉम्प्ट समान हैं तो DICES के मूल स्कोरिंग का उपयोग करें) को इनका मूल्यांकन करने दें।मॉडल जनरेशनसंवाद सुरक्षा। समूह A (उदाहरणार्थ, 18-30 वर्ष, उत्तरी अमेरिका) और समूह B (उदाहरणार्थ, 50 वर्ष से अधिक, दक्षिणपूर्व एशिया) के लिए मूल्यांकनकर्ताओं के लिए सुरक्षा डिटेक्शन की प्रिसिजन/रिकॉल/F1 स्कोर की अलग-अलग गणना करें।
  2. मतभेद के हॉटस्पॉट की पहचान करें: वे संवाद विषय या शैलियाँ ढूँढें जहाँ समूह A और समूह B के बीच प्रदर्शन अंतर सबसे अधिक है (उदाहरणार्थ, अनुभूत सुरक्षा दर में 30% से अधिक का अंतर)। यह मॉडल सुरक्षा संरेखण के उन विशिष्ट क्षेत्रों की सटीक पहचान करता है जो मजबूत नहीं हैं।
  3. एकत्रीकरण रणनीतियों का अन्वेषण करें: DICES से प्राप्त सुरक्षा लेबल के साथ फाइन-ट्यून किए गए मॉडल के उपयोग का अनुकरण करें, निम्नलिखित दो तरीकों का उपयोग करके: a) बहुमत मत, b) एक भारित योजना जो लक्षित क्षेत्र की जनसांख्यिकी (समूह B) का अत्यधिक प्रतिनिधित्व करती है। परिणामी मॉडल के व्यवहार की तुलना करें। DICES फ्रेमवर्क डेटा प्रदान करता है ताकि बहुमत नियम को डिफ़ॉल्ट रूप से अपनाने के बजाय सूचित विकल्प बनाया जा सके।
  4. परिणाम: टीम ने पाया कि उनके वर्तमान मॉडल को वार्ता परिदृश्यों में दक्षिण पूर्व एशियाई वरिष्ठ मूल्यांकनकर्ताओं द्वारा "आक्रामक" या "असुरक्षित" के रूप में समझे जाने की संभावना 25% अधिक है। उन्होंने इस प्रमुख उपयोगकर्ता समूह के लिए संरेखण में सुधार करने के लिए अगले फाइन-ट्यूनिंग चक्र में जनसांख्यिकीय-भारित हानि फ़ंक्शन का उपयोग करने का निर्णय लिया।

6. भविष्य के अनुप्रयोग एवं शोध संभावनाएँ

  • गतिशील सुरक्षा अनुकूलन: मॉडल उपयोगकर्ता के संदर्भ/जनसांख्यिकीय जानकारी (उचित गोपनीयता सुरक्षा उपायों के तहत) का अनुमान लगा सकता है और DICES जैसे ढांचे को स्वीकार्य विचरण के संदर्भ के रूप में उपयोग करके, अपनी सुरक्षा/संवाद अवरोधों को वास्तविक समय में समायोजित कर सकता है।
  • व्यक्तिगत AI संरेखण: सुरक्षा से परे अन्य व्यक्तिपरक गुणों (सहायकता, हास्य, शिष्टता) तक प्रतिमान का विस्तार करना, जिससे उपयोगकर्ता समुदाय-सत्यापित प्राथमिकताओं की सीमा के भीतर AI व्यक्तित्व को अंशांकित कर सकें।
  • नीति और मानक निर्माण: AI सुरक्षा मूल्यांकन के लिए उद्योग और नियामक मानकों को सूचित करना। DICES एक तरीका प्रदान करता है जो "उचित मतभेद" सीमा को परिभाषित करता है और उपसमूह प्रभाव मूल्यांकन को अनिवार्य करता है, जो भर्ती एल्गोरिदम में निष्पक्षता ऑडिट के समान है।
  • सांस्कृतिक रूप से विविध मॉडल प्रशिक्षण: DICES जैसे डेटासेट का सक्रिय उपयोग मॉडलों को प्रशिक्षित करने के लिए, ताकि वे दृष्टिकोणों की विविधता से स्पष्ट रूप से अवगत हों, संभवतः बहु-कार्य शिक्षण या मानव प्रतिक्रिया सुदृढीकरण शिक्षा (RLHF) से प्रेरित पसंद मॉडलिंग आर्किटेक्चर के माध्यम से, लेकिन कई, समूह-विशिष्ट पुरस्कार मॉडलों का उपयोग करके।
  • अनुदैर्ध्य अध्ययन: यह ट्रैक करना कि प्रौद्योगिकी और सामाजिक परिवर्तनों के साथ जनसांख्यिकीय समूहों के भीतर और उनके बीच सुरक्षा की धारणा कैसे विकसित होती है, इसके लिए DICES डेटासेट के अद्यतन संस्करण की आवश्यकता है।

7. संदर्भ सूची

  1. Aroyo, L., et al. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
  2. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.
  3. Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. कम्प्यूटेशनल भाषाविज्ञान संघ के निष्कर्ष: EMNLP 2020.
  4. Ouyang, L., et al. (2022). मानव प्रतिक्रिया के साथ निर्देशों का पालन करने के लिए भाषा मॉडलों को प्रशिक्षित करना। Advances in Neural Information Processing Systems, 35.
  5. Prabhakaran, V., Denton, E., Webster, K., & Conover, A. (2022). Creativity, Caution, and Collaboration: Understanding and Supporting Human-AI Co-creativity. Proceedings of the ACM on Human-Computer Interaction.
  6. Xu, J., et al. (2020). RECAST: Enabling User Recourse and Interpretability of Toxicity Detection Models with Interactive Visualization. Proceedings of the ACM on Human-Computer Interaction.

8. Expert Analysis: Core Insights, Logical Flow, Strengths and Weaknesses, Actionable Recommendations

मुख्य अंतर्दृष्टि

DICES केवल एक और डेटासेट नहीं है; यह मुख्यधारा के AI सुरक्षा मूल्यांकन की ज्ञानमीमांसीय नींव पर एक सीधी चुनौती है। इस पेपर का मूल अंतर्दृष्टि यह है:संवाद में "सुरक्षा" पाठ का एक द्विआधारी गुण नहीं है, बल्कि यह पाठ और विशिष्ट मानवीय संदर्भों के बीच अंतर्क्रिया में उभरने वाला एक गुण है। मतभेदों को केवल शोर के रूप में देखकर जिसे औसत करके हटाना है, हम एक काल्पनिक, सांख्यिकीय "औसत उपयोगकर्ता" के लिए मॉडल बना रहे हैं, जो वास्तव में अस्तित्व में नहीं है। यह कार्य, Bender et al. (2021) के "स्टोकेस्टिक पैरट" पर आलोचनात्मक कार्य के साथ, हमें इस सच्चाई का सामना करने के लिए मजबूर करता है: स्केलेबल, स्वचालित सुरक्षा की हमारी खोज, उसी विविधता को व्यवस्थित रूप से मिटा रही हो सकती है जिसकी रक्षा करने का हम दावा करते हैं।

तार्किक संरचना

इसका तर्क आकर्षक और व्यवस्थित है: 1) कमियों की पहचान: वर्तमान सुरक्षा डेटासेट एकल मानक उत्तर मानते हैं, जो व्यक्तिपरकता को छिपाते हैं।2) उपाय प्रस्तावित करें: वास्तविकता को समझने के लिए, हमें ऐसे डेटा की आवश्यकता है जो विचरण को बनाए रख सके और उसे जनसांख्यिकीय आँकड़ों से जोड़ सके।3) उपकरण विकसित करें: इसलिए, DICES आया - जिसकी जनसांख्यिकीय संरचना और उच्च पुनरावृत्ति एनोटेशन जानबूझकर डिज़ाइन किए गए थे।4) उपयोगिता प्रदर्शित करें: यह नए विश्लेषणों (वितरण-आधारित माप, समुच्चय रणनीति तुलना) का समर्थन करता है, हमारे चयन के परिणामों को उजागर करता है। आलोचनात्मक से रचनात्मक समाधान की ओर तर्क का संक्रमण निर्बाध है।

शक्तियाँ और सीमाएँ

फायदे: इसकी सबसे बड़ी संपत्ति इसकी संकल्पनात्मक रूपरेखा है। "पूर्वाग्रह न्यूनीकरण" से "विविधता मापन" की ओर बढ़ना केवल शब्दार्थ परिवर्तन नहीं है — यह एक कमी-आधारित मॉडल से एक बहुलवादी मॉडल की ओर एक मौलिक पुनः अभिविन्यास है। तकनीकी डिजाइन (उच्च पुनरावृत्ति एनोटेशन, वितरण एन्कोडिंग) मजबूत है और सीधे इसके दार्शनिक लक्ष्य की सेवा करता है। यह उभरते हुए समावेशी सुरक्षा मूल्यांकन क्षेत्र के लिए एक अत्यावश्यक बेंचमार्क प्रदान करता है।

कमियाँ और अंतराल: प्रीप्रिंट स्थिति का अर्थ है कि विशिष्ट, बड़े पैमाने के परिणाम अभी प्रकाशित होने बाकी हैं, और हमें केवल इस ढांचे के वादे पर भरोसा करना होगा। एक महत्वपूर्ण अंतराल यह है किपरिचालनात्मक चुनौतियाँ: उत्पाद टीम वास्तव में इसका उपयोग कैसे करती है? समग्र रणनीति (बहुमत, भारित, न्यूनतम) चुनना अब एक पेचीदानैतिकता और उत्पादनिर्णय, केवल तकनीकी निर्णय नहीं। इस डेटासेट में उपयोग किए गए जनसांख्यिकीय श्रेणियों को सुदृढ़ करने का जोखिम भी है; पेपर में अंतर्विभागीयता का उल्लेख किया गया है, लेकिन विश्लेषण अभी भी "आयु" और "जाति" को स्वतंत्र आयामों के रूप में देख सकता है। इसके अलावा, Ouyang et al. (2022) के RLHF के समान, यह मानव मूल्यांकनकर्ताओं पर निर्भर करता है, जो इस प्रक्रिया की सभी जटिलताओं, लागतों और संभावित असंगतियों को विरासत में लेता है।

क्रियान्वयन योग्य सुझाव

AI पेशेवरों और नेताओं के लिए:

  1. तत्काल ऑडिट करें: अपने मौजूदा सुरक्षा वर्गीकरणकर्ताओं का उपसमूह विविधता ऑडिट करने के लिए DICES फ्रेमवर्क का उपयोग करें (यहां तक कि पूर्ण डेटासेट जारी होने से पहले)। एक छोटे आंतरिक जनसांख्यिकीय सर्वेक्षण से शुरुआत कर सकते हैं। सवाल यह नहीं है कि "क्या हमारा मॉडल सुरक्षित है?", बल्कि "किसके लिएहमारा मॉडल सुरक्षित है, और यह कहाँ विफल होता है?"
  2. सफलता के मापदंडों को पुनः परिभाषित करें: सुरक्षा मूल्यांकन रिपोर्ट के लिए यह अनिवार्य है कि वह पारंपरिक सटीकता दर के अलावा, विचरण माप मीट्रिक (उदाहरण के लिए, प्रमुख उपयोगकर्ता समूहों के बीच स्कोर का मानक विचलन) अवश्य शामिल करे। 95% सटीकता दर वाला लेकिन समूहों के बीच उच्च विचरण वाला मॉडल, 90% सटीकता दर वाले लेकिन कम विचरण वाले मॉडल की तुलना में अधिक जोखिमपूर्ण है।
  3. निवेश प्राथमिकता मॉडलिंग आर्किटेक्चर: एकल सुरक्षा "पुरस्कार मॉडल" से आगे बढ़ें। मल्टी-हेड रिवार्ड मॉडल या कंडीशनल प्रेफरेंस नेटवर्क की खोज करें, जो (संदर्भ, उपयोगकर्ता प्रोफाइल) से उपयुक्त सुरक्षा सीमा तक मैपिंग सीख सकते हैं, और DICES जैसे डेटासेट का उपयोग करके प्रशिक्षित किए जा सकते हैं।
  4. नैतिकताविदों और सामाजिक वैज्ञानिकों को लूप में शामिल करें: प्रशिक्षण लेबल के लिए समुच्चय रणनीति का चयन एक उत्पाद नीति निर्णय है जिसके नैतिक प्रभाव होते हैं। यह निर्णय सहयोगात्मक रूप से किया जाना चाहिए, न कि केवल एकल मीट्रिक को अनुकूलित करने वाले मशीन लर्निंग इंजीनियरों द्वारा।

DICES ने सफलतापूर्वक यह तर्क दिया है कि विविधता की उपेक्षा करना एक अस्तित्वगत तकनीकी जोखिम है। अगला कदम उस जटिलता को संभालने में सक्षम इंजीनियरिंग और उत्पाद प्रबंधन प्रथाओं का निर्माण करना है, जिसे इसने उजागर किया है।