DICES ডেটাসেট: কথোপকথন এআই নিরাপত্তা মূল্যায়নে বৈচিত্র্য

1. ভূমিকা

বৃহৎ ভাষা মডেল (এলএলএম) এর উপর নির্মিত কথোপকথন এআই সিস্টেমের বিস্তারের ফলে নিরাপত্তা মূল্যায়ন একটি গুরুত্বপূর্ণ উদ্বেগের বিষয় হয়ে দাঁড়িয়েছে। ঐতিহ্যগত পদ্ধতিগুলি প্রায়শই "নিরাপদ" এবং "অনিরাপদ" বিষয়বস্তুর মধ্যে স্পষ্ট দ্বি-বিভাজন সহ ডেটাসেটের উপর নির্ভর করে, যা নিরাপত্তার বিষয়গত ও সাংস্কৃতিকভাবে অবস্থিত প্রকৃতিকে সহজাতভাবে অতিসরলীকরণ করে। গুগল রিসার্চ, সিটি ইউনিভার্সিটি অফ লন্ডন এবং কেমব্রিজ বিশ্ববিদ্যালয়ের গবেষকদের দ্বারা প্রবর্তিত DICES (Diversity In Conversational AI Evaluation for Safety) ডেটাসেটটি এই ফাঁকটি পূরণ করে এমন একটি সম্পদ সরবরাহের মাধ্যমে যা এআই নিরাপত্তা সম্পর্কে মানুষের দৃষ্টিভঙ্গির অন্তর্নিহিত প্রকরণ, অস্পষ্টতা এবং বৈচিত্র্যকে ধারণ করে।

DICES তিনটি মূল নীতির উপর ভিত্তি করে নকশা করা হয়েছে: ১) রেটারদের সম্পর্কে সূক্ষ্ম জনসংখ্যাগত তথ্য অন্তর্ভুক্তি (যেমন: জাতিগত/নৃতাত্ত্বিক গোষ্ঠী, বয়স, লিঙ্গ), ২) পরিসংখ্যানগত শক্তি নিশ্চিত করতে প্রতি কথোপকথন আইটেমের জন্য উচ্চ পুনরাবৃত্তি রেটিং, এবং ৩) রেটার ভোটগুলিকে জনসংখ্যাগত বৈশিষ্ট্য জুড়ে বন্টন হিসাবে এনকোড করা যাতে বিভিন্ন সমষ্টিকরণ কৌশল অন্বেষণ করা যায়। এই নকশা একটি একক "স্থল সত্য" থেকে এগিয়ে গিয়ে নিরাপত্তাকে একটি বহুমুখী, জনসংখ্যা-নির্ভর গঠন হিসাবে বিবেচনা করে।

1.1. অবদানসমূহ

DICES ডেটাসেট এবং সংশ্লিষ্ট গবেষণার প্রাথমিক অবদানগুলি হল:

রেটার বৈচিত্র্য একটি মূল বৈশিষ্ট্য হিসাবে: রেটার মতামতে "পক্ষপাত" প্রশমিত করার দৃষ্টি থেকে সরে এসে "বৈচিত্র্য" গ্রহণ ও বিশ্লেষণের উপর ফোকাস স্থানান্তর।
সূক্ষ্ম বিশ্লেষণের জন্য কাঠামো: একটি ডেটাসেট কাঠামো প্রদান যা নিরাপত্তা উপলব্ধি কীভাবে জনসংখ্যাগত বিভাগগুলির সাথে ছেদ করে তার গভীর অন্বেষণের সুযোগ দেয়।
সূক্ষ্ম মূল্যায়নের জন্য বেঞ্চমার্ক: DICES কে একটি ভাগ করা সম্পদ হিসাবে প্রতিষ্ঠিত করা যাতে কথোপকথন এআই সিস্টেমগুলিকে এমনভাবে মূল্যায়ন করা যায় যা বৈচিত্র্যময় দৃষ্টিভঙ্গিকে সম্মান করে, একক নিরাপত্তা স্কোরের বাইরে গিয়ে।

2. মূল অন্তর্দৃষ্টি ও যৌক্তিক প্রবাহ

মূল অন্তর্দৃষ্টি: মূলধারার এআই নিরাপত্তা মূল্যায়নের মৌলিক ত্রুটি হল তথ্যের অভাব নয়, বরং প্রতিনিধিত্বমূলক এবং বিচ্ছিন্ন তথ্যের অভাব। নিরাপত্তাকে একটি উদ্দেশ্যমূলক, দ্বি-বিভাজন শ্রেণীবিভাগের কাজ হিসাবে বিবেচনা করা একটি বিপজ্জনক অতিসরলীকরণ যা সাংস্কৃতিক সূক্ষ্মতা মুছে দেয় এবং এমন সিস্টেমের দিকে নিয়ে যেতে পারে যা শুধুমাত্র একটি প্রভাবশালী জনসংখ্যার জন্য "নিরাপদ"। DICES সঠিকভাবে চিহ্নিত করে যে নিরাপত্তা একটি সামাজিক গঠন, এবং এর মূল্যায়ন অবশ্যই পরিসংখ্যানগত হতে হবে, নির্ধারক নয়।

যৌক্তিক প্রবাহ: গবেষণাপত্রের যুক্তি অত্যন্ত তীক্ষ্ণ: ১) বর্তমান এলএলএম নিরাপত্তা ফাইন-টিউনিং সরলীকৃত ডেটাসেটের উপর নির্ভর করে। ২) এই সরলীকরণ বিষয়গত প্রকরণকে উপেক্ষা করে, যা নিরাপত্তার জন্য বিশেষভাবে সমস্যাযুক্ত—একটি সামাজিকভাবে অবস্থিত ধারণা। ৩) অতএব, আমাদের একটি নতুন শ্রেণির ডেটাসেটের প্রয়োজন যা জনসংখ্যাগত বৈচিত্র্য এবং উচ্চ রেটার পুনরাবৃত্তির মাধ্যমে এই প্রকরণকে স্পষ্টভাবে ধারণ করে। ৪) DICES এটি সরবরাহ করে, এমন বিশ্লেষণ সক্ষম করে যা প্রকাশ করে কোন গোষ্ঠী কোন বিষয়বস্তুকে অনিরাপদ বলে মনে করে এবং কতটা মাত্রায়। এই প্রবাহ যৌক্তিকভাবে একটি সর্বজনীন নিরাপত্তা মানের মিথকে ভেঙে দেয় এবং নিরাপত্তা ল্যান্ডস্কেপ বোঝার জন্য একটি কাঠামো দ্বারা প্রতিস্থাপন করে।

3. শক্তি ও দুর্বলতা

শক্তি:

প্যারাডাইম-শিফটিং নকশা: দ্বি-বিভাজন লেবেল থেকে জনসংখ্যাগত বন্টনের দিকে যাওয়া এর সবচেয়ে শক্তিশালী বৈশিষ্ট্য। এটি এই ক্ষেত্রটিকে নিরাপত্তার বহুত্বের মুখোমুখি হতে বাধ্য করে।
পরিসংখ্যানগত কঠোরতা: অর্থপূর্ণ জনসংখ্যাগত বিশ্লেষণের জন্য প্রতি আইটেমের উচ্চ পুনরাবৃত্তি অপরিহার্য, এবং DICES এটি সঠিকভাবে পায়। এটি কাহিনী-নির্ভরতা থেকে বেরিয়ে আসার জন্য প্রয়োজনীয় পরিসংখ্যানগত শক্তি সরবরাহ করে।
মডেল উন্নয়নের জন্য বাস্তবায়নযোগ্য: এটি শুধুমাত্র একটি সমস্যার নির্ণয় করে না; এটি একটি কাঠামো (বন্টন) সরবরাহ করে যা সরাসরি আরও সূক্ষ্ম ফাইন-টিউনিং এবং মূল্যায়ন মেট্রিক্সকে জানাতে পারে, ঠিক যেমন অনিশ্চয়তা পরিমাপকরণ মডেল ক্যালিব্রেশন উন্নত করেছিল।

দুর্বলতা ও উন্মুক্ত প্রশ্ন:

"জনসংখ্যাগত বাধা": যদিও এটি মূল জনসংখ্যাগত বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে, বিভাগগুলির পছন্দ (জাতি, বয়স, লিঙ্গ) একটি শুরুর বিন্দু। এটি আন্তঃসম্পর্কিততা (যেমন: তরুণ কৃষ্ণাঙ্গ মহিলা) এবং অন্যান্য অক্ষ যেমন আর্থ-সামাজিক অবস্থা, অক্ষমতা বা সাংস্কৃতিক ভূগোলকে মিস করে, যা একটি পূর্ণ চিত্রের জন্য সমানভাবে গুরুত্বপূর্ণ।
কার্যকরীকরণের চ্যালেঞ্জ: গবেষণাপত্রটি কীভাবে তা নিয়ে হালকা। একটি মডেল ডেভেলপার কীভাবে এই বন্টনগুলি ব্যবহার করবেন? আপনি গড়ের জন্য ফাইন-টিউন করবেন? প্রচলিত মান? নাকি এমন একটি সিস্টেম তৈরি করবেন যা অনুমান করা ব্যবহারকারীর জনসংখ্যাগত বৈশিষ্ট্যের উপর ভিত্তি করে তার নিরাপত্তা ফিল্টার সামঞ্জস্য করতে পারে? সমৃদ্ধ তথ্য থেকে প্রকৌশল অনুশীলনে যাওয়ার পদক্ষেপটি পরবর্তী চড়াই।
স্থির স্ন্যাপশট: নিরাপত্তা সম্পর্কে সামাজিক নিয়ম বিবর্তিত হয়। একটি ডেটাসেট, যতই বৈচিত্র্যময় হোক না কেন, একটি স্থির স্ন্যাপশট। এই কাঠামোতে এই নিরাপত্তা উপলব্ধিগুলির ক্রমাগত, গতিশীল আপডেটের জন্য একটি স্পষ্ট পথের অভাব রয়েছে, যা অন্যান্য স্থির নৈতিক ডেটাসেটগুলিরও সম্মুখীন একটি চ্যালেঞ্জ।

4. বাস্তবায়নযোগ্য অন্তর্দৃষ্টি

এআই অনুশীলনকারী এবং পণ্য নেতাদের জন্য:

তাত্ক্ষণিক নিরীক্ষা: আপনার বর্তমান নিরাপত্তা শ্রেণিবিভাজকগুলি নিরীক্ষা করতে DICES কাঠামো (বন্টন, গড় নয়) ব্যবহার করুন। আপনি সম্ভবত দেখতে পাবেন যে তারা একটি সংকীর্ণ জনসংখ্যাগত অংশের সাথে সামঞ্জস্যপূর্ণ। এটি একটি সুনামগত এবং পণ্যগত ঝুঁকি।
আপনার মেট্রিক পুনর্ব্যাখ্যা করুন: একটি একক "নিরাপত্তা স্কোর" রিপোর্ট করা বন্ধ করুন। একটি নিরাপত্তা প্রোফাইল রিপোর্ট করুন: "এই মডেলের আউটপুট X% সম্মতির সাথে গ্রুপ A-এর নিরাপত্তা উপলব্ধির সাথে সামঞ্জস্যপূর্ণ এবং Y এবং Z বিষয়ে গ্রুপ B থেকে বিচ্যুত।" স্বচ্ছতা বিশ্বাস গড়ে তোলে।
অভিযোজিত নিরাপত্তায় বিনিয়োগ করুন: চূড়ান্ত লক্ষ্য একটি নিখুঁত নিরাপদ মডেল নয়, বরং এমন মডেল যা প্রসঙ্গ, ব্যবহারকারীর প্রসঙ্গ সহ বুঝতে পারে। গবেষণা বিনিয়োগটি একক নিরাপত্তা ফিল্টার থেকে প্রসঙ্গ-সচেতন এবং সম্ভাব্যভাবে ব্যবহারকারী-ব্যক্তিগতকৃত নিরাপত্তা প্রক্রিয়ার দিকে ঘুরিয়ে দেওয়া উচিত, নিশ্চিত করা যে মডেলের আচরণ তার শ্রোতাদের জন্য উপযুক্ত। স্ট্যানফোর্ড ইনস্টিটিউট ফর হিউম্যান-সেন্টার্ড এআই (HAI) আলোচিত এআই নীতিশাস্ত্রে মূল্য সারিবদ্ধকরণের কাজটি জোর দেয় যে সারিবদ্ধতা অবশ্যই মানুষের মূল্যবোধের বহুত্বের সাথে হতে হবে, একটি একক সেটের সাথে নয়।

5. প্রযুক্তিগত কাঠামো ও ডেটাসেট নকশা

DICES ডেটাসেটটি মানুষ-বট কথোপকথনের চারপাশে নির্মিত যা একটি বৃহৎ, জনসংখ্যাগতভাবে স্তরবিন্যাসিত রেটার পুল দ্বারা নিরাপত্তার জন্য রেট করা হয়। মূল উদ্ভাবন হল ডেটা স্ট্রাকচার: একটি একক লেবেল (যেমন: "অনিরাপদ") সংরক্ষণের পরিবর্তে, প্রতিটি কথোপকথন আইটেম জনসংখ্যাগত বালতিতে বিভক্ত রেটিংয়ের একটি বহুমাত্রিক অ্যারের সাথে যুক্ত।

একটি প্রদত্ত কথোপকথন $c_i$ এর জন্য, ডেটাসেট $label(c_i) \in \{0, 1\}$ প্রদান করে না। পরিবর্তে, এটি রেটার প্রতিক্রিয়ার একটি সেট প্রদান করে $R_i = \{r_{i,1}, r_{i,2}, ..., r_{i,N}\}$, যেখানে প্রতিটি প্রতিক্রিয়া $r_{i,j}$ একটি টিপল $(v_{i,j}, d_{i,j})$। এখানে, $v_{i,j}$ হল নিরাপত্তা রায় (যেমন: লিকার্ট স্কেল বা বাইনারিতে), এবং $d_{i,j}$ হল একটি ভেক্টর যা রেটারের জনসংখ্যাগত বৈশিষ্ট্যগুলি এনকোড করে (যেমন: $d_{i,j} = [\text{লিঙ্গ}=G1, \text{বয়স}=A2, \text{জাতিগত পরিচয়}=E3]$)।

5.1. রেটার বন্টনের গাণিতিক উপস্থাপনা

মূল বিশ্লেষণাত্মক শক্তি এই পৃথক রেটিংগুলিকে বন্টনে সমষ্টিকরণ থেকে আসে। একটি নির্দিষ্ট জনসংখ্যাগত অংশ $D_k$ (যেমন: "এশীয়, ৩০-৩৯, মহিলা") এর জন্য, আমরা কথোপকথন $c_i$ এর জন্য নিরাপত্তা স্কোরের বন্টন গণনা করতে পারি:

$P(\text{স্কোর} = s | c_i, D_k) = \frac{|\{r \in R_i : v(r)=s \land d(r) \in D_k\}|}{|\{r \in R_i : d(r) \in D_k\}|}$

এটি শুধুমাত্র গড় নিরাপত্তা স্কোর $\mu_{i,k}$ গণনা করার অনুমতি দেয় না, বরং আরও গুরুত্বপূর্ণভাবে, প্রকরণের পরিমাপ ($\sigma^2_{i,k}$), অস্পষ্টতা (যেমন: বন্টনের এনট্রপি $H(P)$), এবং জনসংখ্যাগত গোষ্ঠীগুলির মধ্যে বিভেদ (যেমন: KL-বিভেদ $D_{KL}(P_{i,k} || P_{i,l})$) গণনা করার অনুমতি দেয়। এই গাণিতিক ফর্মালাইজেশন অতিসরল গড়ের বাইরে যাওয়ার জন্য অত্যন্ত গুরুত্বপূর্ণ।

6. পরীক্ষামূলক ফলাফল ও বিশ্লেষণ

যদিও প্রদত্ত PDF অংশটি পর্যালোচনার অধীনে একটি প্রিপ্রিন্ট এবং সম্পূর্ণ পরীক্ষামূলক ফলাফল ধারণ করে না, বর্ণিত ডেটাসেটটি বেশ কয়েকটি মূল বিশ্লেষণ সক্ষম করে যা সাধারণত চার্টে উপস্থাপিত হবে:

চার্ট ১: জনসংখ্যাগত মতবিরোধ হিটম্যাপ: একটি ম্যাট্রিক্স ভিজ্যুয়ালাইজেশন যা বিতর্কিত কথোপকথন বিষয়গুলির একটি নমুনা জুড়ে বিভিন্ন জনসংখ্যাগত গোষ্ঠীর মধ্যে নিরাপত্তা স্কোর বন্টনের জোড়া বিভেদ (যেমন: জেনসেন-শ্যানন দূরত্ব) দেখায় (যেমন: গ্রুপ A: শ্বেত পুরুষ ৫০+ বনাম গ্রুপ B: হিস্পানিক মহিলা ১৮-২৯)। এই চার্টটি স্পষ্টভাবে হাইলাইট করবে যেখানে উপলব্ধিগুলি সবচেয়ে দৃঢ়ভাবে বিচ্যুত হয়।
চার্ট ২: অস্পষ্টতা বনাম ঐকমত্য স্ক্যাটার প্লট: প্রতিটি কথোপকথন আইটেমকে তার গড় নিরাপত্তা স্কোর (x-অক্ষ) এবং তার মোট রেটিং বন্টনের এনট্রপি (y-অক্ষ) এর উপর ভিত্তি করে প্লট করা। এটি সেই আইটেমগুলিকে পৃথক করবে যা সর্বজনীনভাবে নিরাপদ/অনিরাপদ হিসাবে দেখা যায় (নিম্ন এনট্রপি, উচ্চ ঐকমত্য) যেগুলি অত্যন্ত অস্পষ্ট (উচ্চ এনট্রপি) থেকে।
চার্ট ৩: মডেল কর্মক্ষমতা বিচ্ছিন্নকরণ বার চার্ট: বিভিন্ন জনসংখ্যাগত গোষ্ঠী দ্বারা সংজ্ঞায়িত "স্থল সত্য" এর বিপরীতে মূল্যায়ন করার সময় একটি আদর্শ নিরাপত্তা শ্রেণিবিভাজকের কর্মক্ষমতা (যেমন: F1 স্কোর) তুলনা করা। নির্দিষ্ট গোষ্ঠীর জন্য একটি উল্লেখযোগ্য কর্মক্ষমতা হ্রাস নির্দেশ করবে যে মডেলের সারিবদ্ধতা পক্ষপাতদুষ্ট।

DICES এর শক্তি হল যে এটি এই চার্টগুলি তৈরি করার জন্য প্রয়োজনীয় ডেটা তৈরি করে, মূল্যায়নকে একটি একক সংখ্যা থেকে একটি বহুমুখী ড্যাশবোর্ডে নিয়ে যায়।

7. বিশ্লেষণ কাঠামো: উদাহরণ কেস স্টাডি

পরিস্থিতি: একটি কথোপকথন এআই একটি ব্যবহারকারীর প্রম্পটের প্রতিক্রিয়ায় একটি রসিকতা তৈরি করে। প্রশিক্ষণ ডেটা এবং আদর্শ নিরাপত্তা মূল্যায়ন এটিকে "নিরাপদ" (রসবোধ) হিসাবে লেবেল করে।

DICES-ভিত্তিক বিশ্লেষণ:

ডেটা পুনরুদ্ধার: সম্পর্কিত বিষয়ে রসবোধ বা রসিকতা জড়িত অনুরূপ কথোপকথন আইটেমের জন্য DICES ডেটাসেট অনুসন্ধান করুন।
বন্টন বিশ্লেষণ: নিরাপত্তা রেটিং বন্টন পরীক্ষা করুন। আপনি খুঁজে পেতে পারেন:
- $P(\text{অনিরাপদ} | \text{বয়স}=১৮-২৯) = ০.১৫$
- $P(\text{অনিরাপদ} | \text{বয়স}=৬০+) = ০.৬৫$
- $P(\text{অনিরাপদ} | \text{জাতিগত পরিচয়}=E1) = ০.২০$
- $P(\text{অনিরাপদ} | \text{জাতিগত পরিচয়}=E2) = ০.৫৫$
ব্যাখ্যা: এই রসিকতার "নিরাপত্তা" একটি তথ্য নয় বরং জনসংখ্যাগত বৈশিষ্ট্যের একটি ফাংশন। মডেলের আউটপুট, যদিও প্রযুক্তিগতভাবে একটি বিস্তৃত "নিরাপত্তা" নিয়মের সাথে সঙ্গতিপূর্ণ, বয়স্ক প্রাপ্তবয়স্ক এবং জাতিগত গোষ্ঠী E2-এর সদস্যদের দ্বারা আপত্তিকর হিসাবে উপলব্ধি হওয়ার উচ্চ ঝুঁকি বহন করে।
কর্ম: একটি সরলীকৃত পদ্ধতি হবে সমস্ত রসিকতা ব্লক করা। DICES দ্বারা অবহিত একটি সূক্ষ্ম পদ্ধতি হতে পারে: ক) এই ধরণের বিষয়বস্তুকে "উচ্চ জনসংখ্যাগত প্রকরণ" হিসাবে চিহ্নিত করা, খ) একটি ব্যবহারকারী প্রসঙ্গ মডিউল তৈরি করা যা মডেলটিকে তার রসবোধের শৈলী সামঞ্জস্য করতে দেয়, বা গ) একটি স্বচ্ছতা নোট প্রদান করা: "এই প্রতিক্রিয়াটি রসবোধ ব্যবহার করে। রসবোধের উপলব্ধি সংস্কৃতি এবং বয়স গোষ্ঠী জুড়ে ব্যাপকভাবে পরিবর্তিত হয়।"

এই কেস স্টাডিটি চিত্রিত করে যে কীভাবে DICES প্রশ্নটিকে "এটি কি নিরাপদ?" থেকে "কার জন্য নিরাপদ, এবং কোন শর্তে?" তে স্থানান্তরিত করে।

8. ভবিষ্যতের প্রয়োগ ও গবেষণার দিকনির্দেশ

DICES কাঠামো ভবিষ্যতের কাজের জন্য বেশ কয়েকটি গুরুত্বপূর্ণ পথ উন্মুক্ত করে:

ব্যক্তিগতকৃত ও অভিযোজিত নিরাপত্তা মডেল: যৌক্তিক শেষবিন্দুটি একটি সবার জন্য একই নিরাপত্তা ফিল্টার নয়, বরং এমন মডেল যা প্রাসঙ্গিক ব্যবহারকারী প্রসঙ্গ অনুমান করতে পারে (উপযুক্ত গোপনীয়তা সুরক্ষা সহ) এবং সেই অনুযায়ী তাদের নিরাপত্তা থ্রেশহোল্ড বা বিষয়বস্তু উৎপাদন কৌশলগুলি সামঞ্জস্য করতে পারে। এটি সুপারিশ সিস্টেমে দেখা যায় এমন এমএল-এ ব্যক্তিগতকরণের বৃহত্তর প্রবণতার সাথে সামঞ্জস্যপূর্ণ।
গতিশীল ও অবিচ্ছিন্ন মূল্যায়ন: DICES-এর মতো নিরাপত্তা উপলব্ধি ডেটাসেটগুলিকে প্রায়-রিয়েল-টাইমে ক্রমাগত আপডেট করার পদ্ধতি তৈরি করা, বিবর্তিত সামাজিক নিয়ম এবং উদীয়মান বিতর্কগুলি ধারণ করা, ঠিক যেমন ভাষা মডেলগুলি নিজেরাই ক্রমাগত আপডেট করা হয়।
আন্তঃসম্পর্কিত বিশ্লেষণ সরঞ্জাম: জনসংখ্যাগত কাঠামোকে প্রসারিত করে আন্তঃসম্পর্কিত পরিচয়গুলিকে আরও ভালভাবে ধারণ করা, স্বাধীন বিভাগগুলির বাইরে গিয়ে একাধিক সংখ্যালঘু গোষ্ঠীর অন্তর্ভুক্ত ব্যক্তিদের যৌগিক অভিজ্ঞতা বোঝা।
মানুষের প্রতিক্রিয়া থেকে রিইনফোর্সমেন্ট লার্নিং (RLHF) এর সাথে একীকরণ: DICES-এর মতো ডেটাসেট থেকে বিচ্ছিন্ন মানুষের প্রতিক্রিয়া ব্যবহার করে পুরস্কার মডেল প্রশিক্ষণ দেওয়া যা জনসংখ্যাগত সারিবদ্ধতার প্রতি সংবেদনশীল, "ভাল" বা "নিরাপদ" কথোপকথনের একটি একক, সম্ভাব্যভাবে সংকীর্ণ ধারণার জন্য অপ্টিমাইজেশন প্রতিরোধ করে। এটি স্ট্যান্ডার্ড RLHF-এ একটি পরিচিত সীমাবদ্ধতা সমাধান করে, যেমন অ্যানথ্রোপিক এবং ডিপমাইন্ডের গবেষণায় স্কেলযোগ্য তত্ত্বাবধানে হাইলাইট করা হয়েছে।
বৈশ্বিক সম্প্রসারণ: ডেটা সংগ্রহকে সত্যিকার অর্থে বৈশ্বিক স্তরে স্কেল করা, পশ্চিমা-বহির্ভূত সংস্কৃতি এবং ভাষাগুলি অন্তর্ভুক্ত করা, অনেক এআই নিরাপত্তা সম্পদে প্রচলিত অ্যাংলো-কেন্দ্রিক পক্ষপাতের বিরুদ্ধে লড়াই করার জন্য।

9. তথ্যসূত্র

Aroyo, L., Taylor, A. S., Díaz, M., Homan, C. M., Parrish, A., Serapio-García, G., Prabhakaran, V., & Wang, D. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
Bommasani, R., et al. (2021). On the Opportunities and Risks of Foundation Models. Stanford Center for Research on Foundation Models (CRFM).
Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems (NeurIPS).
Stanford Institute for Human-Centered AI (HAI). (2023). The AI Index Report 2023. Stanford University.
Weidinger, L., et al. (2021). Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (একটি কাঠামোর উদাহরণ হিসাবে উদ্ধৃত—CycleGAN—যা জোড়াবিহীন, বহুমুখী ডেটা পরিচালনা করে, DICES-এর মতো যা বৈচিত্র্যময়, অসমান্তরাল মানুষের রায় পরিচালনা করে)।