ভাষা নির্বাচন করুন

DICES ডেটাসেট: কথোপকথন এআই নিরাপত্তা মূল্যায়নে বৈচিত্র্য

কথোপকথন এআই-এর সূক্ষ্ম নিরাপত্তা মূল্যায়নের জন্য DICES ডেটাসেটের পরিচয়, যা একক গ্রাউন্ড-ট্রুথ পদ্ধতির বাইরে গিয়ে জনসংখ্যাগত বৈচিত্র্যের মধ্যে মানুষের বিভিন্ন দৃষ্টিভঙ্গি ধারণ করে।
agi-friend.com | PDF Size: 0.4 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - DICES ডেটাসেট: কথোপকথন এআই নিরাপত্তা মূল্যায়নে বৈচিত্র্য

1. ভূমিকা

লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএম) এর উপর নির্মিত কথোপকথন এআই সিস্টেমের বিস্তারের ফলে নিরাপত্তা মূল্যায়ন একটি গুরুত্বপূর্ণ উদ্বেগের বিষয় হয়ে দাঁড়িয়েছে। ঐতিহ্যগত পদ্ধতিগুলি প্রায়শই "নিরাপদ" এবং "অনিরাপদ" বিষয়বস্তুর মধ্যে একটি স্পষ্ট বাইনারি বিভাজন সহ ডেটাসেটের উপর নির্ভর করে, যা নিরাপত্তার অন্তর্নিহিত বিষয়ভিত্তিক এবং সাংস্কৃতিকভাবে অবস্থিত প্রকৃতিকে অতিসরলীকরণ করে। এই গবেষণাপত্রটি DICES (ডাইভারসিটি ইন কনভারসেশনাল এআই ইভ্যালুয়েশন ফর সেফটি) ডেটাসেটের সাথে পরিচয় করিয়ে দেয়, যা বিভিন্ন মানব জনগোষ্ঠীর মধ্যে নিরাপত্তা উপলব্ধির তারতম্য ধারণ ও বিশ্লেষণের জন্য নকশা করা হয়েছে।

যে মূল সমস্যাটি সমাধান করা হয়েছে তা হল বিদ্যমান নিরাপত্তা ডেটাসেটগুলিতে জনসংখ্যাগত ও দৃষ্টিভঙ্গিগত বৈচিত্র্যের অবহেলা, যা নির্দিষ্ট ব্যবহারকারী গোষ্ঠীর নিয়মের সাথে অসঙ্গতিপূর্ণ মডেলের দিকে নিয়ে যেতে পারে এবং "বাস্তব-বিশ্বের পরিবেশে অপ্রত্যাশিত বা এমনকি বিপর্যয়কর প্রভাব" ফেলতে পারে।

1.1. অবদানসমূহ

DICES ডেটাসেট এবং এই কাজের প্রাথমিক অবদানগুলি হল:

  • রেটার বৈচিত্র্য: রেটারদের মতামতে "পক্ষপাত" প্রশমিত করার পরিবর্তে "বৈচিত্র্য" গ্রহণ ও পরিমাপের দিকে মনোনিবেশ স্থানান্তরিত করে।
  • সূক্ষ্ম জনসংখ্যাগত টীকাকরণ: প্রতিটি রেটারের জন্য বিস্তারিত জনসংখ্যাগত তথ্য (জাতিগত/নৃতাত্ত্বিক গোষ্ঠী, বয়স, লিঙ্গ) অন্তর্ভুক্ত করে।
  • প্রতি আইটেমে উচ্চ প্রতিলিপি: প্রতিটি কথোপকথন আইটেম একটি বৃহৎ সংখ্যক রেটিং পায় যাতে উপগোষ্ঠী বিশ্লেষণের জন্য পরিসংখ্যানগত শক্তি নিশ্চিত হয়।
  • বন্টন-ভিত্তিক উপস্থাপনা: নিরাপত্তা ভোটকে জনসংখ্যাগত গোষ্ঠীগুলির মধ্যে বন্টন হিসাবে এনকোড করে, সংখ্যাগরিষ্ঠ ভোটের বাইরে বিভিন্ন সমষ্টিকরণ কৌশল অন্বেষণ সক্ষম করে।
  • বিশ্লেষণের কাঠামো: রেটার রেটিং এবং জনসংখ্যাগত বিভাগগুলির ছেদ করে নতুন মেট্রিক্স স্থাপনের জন্য একটি ভিত্তি প্রদান করে।

2. DICES ডেটাসেট কাঠামো

DICES একটি শেয়ার্ড রিসোর্স এবং বেঞ্চমার্ক হিসাবে নির্মিত হয়েছে যাতে নিরাপত্তা মূল্যায়নের সময় বৈচিত্র্যময় দৃষ্টিভঙ্গিকে সম্মান করা যায়। এটি একটি একক গ্রাউন্ড-ট্রুথ লেবেলের বাইরে চলে যায়।

2.1. মূল নকশা নীতি

  • ইচ্ছাকৃত বৈচিত্র্য: রেটার পুলটি মূল জনসংখ্যাগত উপগোষ্ঠীগুলি থেকে ভারসাম্যপূর্ণ অনুপাত রাখার জন্য কাঠামোগত করা হয়েছে।
  • পরিসংখ্যানগত কঠোরতা: প্রতি কথোপকথন আইটেমে রেটিংয়ের উচ্চ প্রতিলিপি গোষ্ঠীর মধ্যে এবং গোষ্ঠীগুলির মধ্যে সম্মতি, অসম্মতি এবং তারতম্যের শক্তিশালী বিশ্লেষণের অনুমতি দেয়।
  • প্রাসঙ্গিক নিরাপত্তা: রেটিংগুলি মানুষ-বট কথোপকথনের উপর ভিত্তি করে, বিচ্ছিন্ন প্রম্পটের পরিবর্তে একটি গতিশীল, ইন্টারেক্টিভ প্রেক্ষাপটে নিরাপত্তা ধারণ করে।

2.2. ডেটাসেট গঠন ও পরিসংখ্যান

রেটার জনসংখ্যা

জাতিগত/নৃতাত্ত্বিক গোষ্ঠী, বয়সের শ্রেণী এবং লিঙ্গ জুড়ে বৈচিত্র্যময় পুল।

প্রতি আইটেমে রেটিং

শক্তিশালী উপগোষ্ঠী বিশ্লেষণ সক্ষম করার জন্য অসাধারণ উচ্চ সংখ্যক প্রতিলিপি (যেমন, প্রতি কথোপকথনে ৫০+ রেটিং)।

ডেটা কাঠামো

প্রতিটি ডেটা পয়েন্ট একটি কথোপকথন, একজন রেটারের জনসংখ্যাগত প্রোফাইল এবং তাদের নিরাপত্তা রেটিং (যেমন, লিকার্ট স্কেল বা শ্রেণীবদ্ধ) সংযুক্ত করে।

3. প্রযুক্তিগত পদ্ধতি ও বিশ্লেষণ কাঠামো

প্রযুক্তিগত উদ্ভাবনটি নিরাপত্তাকে একটি স্কেলার হিসাবে নয় বরং একটি বহুমাত্রিক বন্টন হিসাবে বিবেচনা করার মধ্যে নিহিত।

3.1. নিরাপত্তাকে একটি বন্টন হিসেবে উপস্থাপন

একটি প্রদত্ত কথোপকথন আইটেম $i$ এর জন্য, নিরাপত্তাকে একটি একক লেবেল $y_i$ দ্বারা নয় বরং $K$ জনসংখ্যাগত গোষ্ঠী জুড়ে রেটিংয়ের একটি বন্টন দ্বারা উপস্থাপন করা হয়। ধরা যাক $R_{i,g}$ হল গোষ্ঠী $g$ এর রেটারদের কাছ থেকে আইটেম $i$ এর জন্য রেটিংয়ের সেট। আইটেম $i$ এর জন্য নিরাপত্তা প্রোফাইল হল ভেক্টর: $\mathbf{S}_i = (\bar{R}_{i,1}, \bar{R}_{i,2}, ..., \bar{R}_{i,K})$, যেখানে $\bar{R}_{i,g}$ হল গোষ্ঠী $g$ তে রেটিংয়ের একটি কেন্দ্রীয় প্রবণতা (যেমন, গড়, মধ্যমা)।

অস্পষ্টতা এবং দৃষ্টিভঙ্গিগত পার্থক্য পরিমাপ করার জন্য $\sigma^2_{i,g}$ (গোষ্ঠী-ভিতরে প্রকরণ) এবং $\Delta_{i, g1, g2} = |\bar{R}_{i,g1} - \bar{R}_{i,g2}|$ (গোষ্ঠী-মধ্যবর্তী অসম্মতি) এর মতো প্রকরণ মেট্রিক্স গণনা করা যেতে পারে।

3.2. সমষ্টিকরণ কৌশল ও মেট্রিক্স

DICES বিভিন্ন লেবেল সমষ্টিকরণ পদ্ধতির তুলনা সক্ষম করে:

  • সংখ্যাগরিষ্ঠ ভোট (বেসলাইন): $y_i^{maj} = \text{mode}(\bigcup_{g=1}^{K} R_{i,g})$
  • জনসংখ্যাগত-ওজনযুক্ত সমষ্টিকরণ: $y_i^{weighted} = \sum_{g=1}^{K} w_g \cdot \bar{R}_{i,g}$, যেখানে $w_g$ জনসংখ্যার আকারের সমানুপাতিক বা অন্যন্য ইক্যুইটি-কেন্দ্রিক ওজন হতে পারে।
  • ন্যূনতম নিরাপত্তা (রক্ষণশীল): $y_i^{min} = \min(\bar{R}_{i,1}, ..., \bar{R}_{i,K})$ সবচেয়ে সংবেদনশীল গোষ্ঠীর দৃষ্টিভঙ্গিকে অগ্রাধিকার দেয়।

ডেমোগ্রাফিক ডিসএগ্রিমেন্ট ইনডেক্স (ডিডিআই) বা সাবগ্রুপ অ্যালাইনমেন্ট স্কোর এর মতো নতুন মেট্রিক্স উদ্ভূত করা যেতে পারে যাতে পরিমাপ করা যায় কীভাবে মডেলের কার্যকারিতা গোষ্ঠী জুড়ে পরিবর্তিত হয়।

4. পরীক্ষামূলক ফলাফল ও মূল সন্ধান

যদিও প্রদত্ত পিডিএফ উদ্ধৃতিটি পর্যালোচনার অধীনে একটি প্রিপ্রিন্ট এবং সম্পূর্ণ ফলাফল ধারণ করে না, প্রস্তাবিত কাঠামোটি বেশ কয়েকটি প্রত্যাশিত সন্ধানের দিকে নিয়ে যায়:

  • উল্লেখযোগ্য প্রকরণ: কথোপকথন আইটেমগুলির একটি উল্লেখযোগ্য উপসেটের জন্য নিরাপত্তা লেবেলগুলিতে গোষ্ঠী-ভিতরে এবং গোষ্ঠী-মধ্যবর্তী অসম্মতির উচ্চ স্তর, একটি সর্বজনীন নিরাপত্তা মানের ধারণাকে চ্যালেঞ্জ করে।
  • জনসংখ্যাগত সম্পর্ক: নির্দিষ্ট বিষয় বা কথোপকথনের সুরের জন্য (যেমন, হাস্যরস, সরাসরি, সাংস্কৃতিক উল্লেখ) বয়স, জাতিগত/নৃতাত্ত্বিক এবং লিঙ্গের রেখা জুড়ে নিরাপত্তা রেটিংয়ে পদ্ধতিগত পার্থক্য পরিলক্ষিত হয়।
  • সমষ্টিকরণের প্রভাব: সমষ্টিকরণ কৌশল (সংখ্যাগরিষ্ঠ বনাম ওজনযুক্ত বনাম ন্যূনতম) পছন্দ ১৫-৩০% আইটেমের জন্য উল্লেখযোগ্যভাবে ভিন্ন চূড়ান্ত নিরাপত্তা লেবেলের দিকে নিয়ে যায়, যা কোন কথোপকথনগুলি একটি মডেল এড়াতে বা অনুমতি দেওয়ার জন্য প্রশিক্ষিত হবে তা উল্লেখযোগ্যভাবে প্রভাবিত করে।
  • মডেল মূল্যায়ন ব্যবধান: একটি সংখ্যাগরিষ্ঠ-সমষ্টিকৃত পরীক্ষা সেট দ্বারা "নিরাপদ" হিসাবে বিবেচিত একটি মডেল নির্দিষ্ট সংখ্যালঘু জনসংখ্যাগত উপগোষ্ঠীর পছন্দের বিরুদ্ধে মূল্যায়ন করার সময় উল্লেখযোগ্যভাবে উচ্চতর ত্রুটি হার (যেমন, +২০% মিথ্যা নেতিবাচক/ইতিবাচক) দেখাতে পারে।

চার্ট বর্ণনা (ধারণাগত): ফলাফল উপস্থাপনের কেন্দ্রে একটি বহুমুখী চার্ট থাকবে। প্যানেল A ৪টি জনসংখ্যাগত গোষ্ঠী (কলাম) জুড়ে ১০০টি কথোপকথন আইটেম (সারি) এর জন্য গড় নিরাপত্তা স্কোর (১-৫ স্কেল) এর একটি হিটম্যাপ দেখায়, যা সঙ্গতি ও অসম্মতির প্যাটার্ন প্রকাশ করে। প্যানেল B হল তিনটি সমষ্টিকরণ কৌশলের অধীনে ২০টি অস্পষ্ট আইটেমের জন্য চূড়ান্ত "নিরাপদ/অনিরাপদ" সিদ্ধান্তের তুলনা করে একটি বার চার্ট, যা সমষ্টিকরণ পছন্দের পরিণতি দৃশ্যত প্রদর্শন করে। প্যানেল C একটি মডেলের সংখ্যাগরিষ্ঠ গোষ্ঠীর জন্য প্রিসিশন বনাম একটি নির্দিষ্ট সংখ্যালঘু গোষ্ঠীর জন্য এর প্রিসিশন প্লট করে, অনেক পয়েন্ট সমতা রেখার নিচে পড়ে, যা কার্যকারিতার ব্যবধান চিত্রিত করে।

5. বিশ্লেষণ কাঠামো: একটি ব্যবহারিক কেস স্টাডি

পরিস্থিতি: একটি উন্নয়ন দল একটি গ্লোবাল কাস্টমার সার্ভিস অ্যাপ্লিকেশনের জন্য একটি কথোপকথন এআই সহকারীকে ফাইন-টিউন করছে। তারা প্রশিক্ষণ ডেটা ফিল্টার করতে একটি স্ট্যান্ডার্ড নিরাপত্তা ডেটাসেট ব্যবহার করে। তারা এখন বিভিন্ন ব্যবহারকারী বেসের জন্য তাদের মডেলের নিরাপত্তা সঙ্গতি নিরীক্ষণ করতে DICES ব্যবহার করতে চায়।

বিশ্লেষণের ধাপ:

  1. উপগোষ্ঠী কার্যকারিতা নিরীক্ষা: DICES কথোপকথন প্রম্পটগুলিতে মডেলটি চালান। এর উত্পন্ন প্রতিক্রিয়া সংগ্রহ করুন। একটি নতুন, জনসংখ্যাগতভাবে বৈচিত্র্যময় রেটার পুল (অথবা প্রম্পটগুলি একই রকম হলে DICES এর মূল রেটিং ব্যবহার করুন) এই মডেল-উত্পন্ন কথোপকথনগুলির নিরাপত্তা মূল্যায়ন করুন। গ্রুপ A (যেমন, বয়স ১৮-৩০, উত্তর আমেরিকা) এবং গ্রুপ B (যেমন, বয়স ৫০+, দক্ষিণ-পূর্ব এশিয়া) এর রেটারদের জন্য নিরাপত্তা সনাক্তকরণের জন্য প্রিসিশন/রিকল/F1 পৃথকভাবে গণনা করুন।
  2. অসম্মতি হটস্পট চিহ্নিতকরণ: সেই কথোপকথনের বিষয় বা শৈলীগুলিকে আলাদা করুন যেখানে গ্রুপ A এবং গ্রুপ B এর মধ্যে কার্যকারিতার ব্যবধান সবচেয়ে বেশি (যেমন, উপলব্ধ নিরাপত্তা হারে >৩০% পার্থক্য)। এটি নির্দিষ্ট এলাকাগুলি চিহ্নিত করে যেখানে মডেলের নিরাপত্তা সঙ্গতি শক্তিশালী নয়।
  3. সমষ্টিকরণ কৌশল অন্বেষণ: DICES থেকে প্রাপ্ত নিরাপত্তা লেবেল ব্যবহার করে মডেলটিকে ফাইন-টিউন করার সিমুলেশন করুন: ক) সংখ্যাগরিষ্ঠ ভোট, খ) একটি ওজন স্কিম যা লক্ষ্য আঞ্চলিক জনসংখ্যাকে (গ্রুপ B) অতিরিক্ত প্রতিনিধিত্ব করে। ফলে মডেলগুলির আচরণের তুলনা করুন। DICES কাঠামো সংখ্যাগরিষ্ঠ নিয়মের উপর ডিফল্ট করার পরিবর্তে এই তথ্যপূর্ণ পছন্দ করার জন্য ডেটা প্রদান করে।
  4. ফলাফল: দলটি আবিষ্কার করে যে তাদের বর্তমান মডেলটি আলোচনার প্রেক্ষাপটে বয়স্ক দক্ষিণ-পূর্ব এশীয় রেটারদের দ্বারা "জোরাজুরি" বা "অনিরাপদ" হিসাবে উপলব্ধি হওয়া প্রতিক্রিয়া তৈরি করার সম্ভাবনা ২৫% বেশি। তারা সেই মূল ব্যবহারকারী সেগমেন্টের জন্য সঙ্গতি উন্নত করতে পরবর্তী ফাইন-টিউনিং চক্রের সময় একটি জনসংখ্যাগত-ওজনযুক্ত লস ফাংশন ব্যবহার করার সিদ্ধান্ত নেয়।

6. ভবিষ্যত প্রয়োগ ও গবেষণা দিকনির্দেশ

  • গতিশীল নিরাপত্তা অভিযোজন: এমন মডেল যা ব্যবহারকারীর প্রেক্ষাপট/জনসংখ্যা অনুমান করতে পারে (উপযুক্ত গোপনীয়তা সুরক্ষা সহ) এবং গ্রহণযোগ্য প্রকরণের জন্য একটি লুকআপ হিসাবে DICES এর মতো কাঠামো ব্যবহার করে তাদের নিরাপত্তা/কথোপকথন গার্ডরেল রিয়েল-টাইমে অভিযোজিত করতে পারে।
  • ব্যক্তিগতকৃত এআই সঙ্গতি: নিরাপত্তা থেকে অন্যান্য বিষয়ভিত্তিক গুণাবলীতে (সহায়তা, হাস্যরস, ভদ্রতা) প্যারাডাইম প্রসারিত করা, ব্যবহারকারীদের একটি সম্প্রদায়-বৈধকৃত পছন্দের পরিসরের মধ্যে এআই ব্যক্তিত্বগুলিকে ক্রমাঙ্কন করার অনুমতি দেয়।
  • নীতি ও মান প্রণয়ন: এআই নিরাপত্তা মূল্যায়নের জন্য শিল্প ও নিয়ন্ত্রক মানগুলিকে অবহিত করা। DICES "যুক্তিসঙ্গত অসম্মতি" থ্রেশহোল্ড সংজ্ঞায়িত করার এবং নিয়োগ অ্যালগরিদমে ন্যায্যতা নিরীক্ষার মতো উপগোষ্ঠী প্রভাব মূল্যায়ন বাধ্যতামূলক করার জন্য একটি পদ্ধতি প্রদান করে।
  • ক্রস-সাংস্কৃতিক মডেল প্রশিক্ষণ: সক্রিয়ভাবে DICES এর মতো ডেটাসেট ব্যবহার করে এমন মডেলগুলিকে প্রশিক্ষণ দেওয়া যা স্পষ্টভাবে দৃষ্টিভঙ্গিগত বৈচিত্র্য সম্পর্কে সচেতন, সম্ভবত মাল্টি-টাস্ক লার্নিং বা প্রেফারেন্স মডেলিং আর্কিটেকচারের মাধ্যমে যা হিউম্যান ফিডব্যাক (আরএলএইচএফ) থেকে রিইনফোর্সমেন্ট লার্নিং দ্বারা অনুপ্রাণিত কিন্তু একাধিক, গোষ্ঠী-নির্দিষ্ট রিওয়ার্ড মডেল সহ।
  • দীর্ঘমেয়াদী গবেষণা: প্রযুক্তিগত ও সামাজিক পরিবর্তনের প্রতিক্রিয়ায় জনসংখ্যার মধ্যে এবং জুড়ে নিরাপত্তা উপলব্ধি কীভাবে সময়ের সাথে বিবর্তিত হয় তা ট্র্যাক করা, যার জন্য DICES ডেটাসেটের আপডেটেড সংস্করণের প্রয়োজন।

7. তথ্যসূত্র

  1. Aroyo, L., et al. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
  2. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.
  3. Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Findings of the Association for Computational Linguistics: EMNLP 2020.
  4. Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
  5. Prabhakaran, V., Denton, E., Webster, K., & Conover, A. (2022). Creativity, Caution, and Collaboration: Understanding and Supporting Human-AI Co-creativity. Proceedings of the ACM on Human-Computer Interaction.
  6. Xu, J., et al. (2020). RECAST: Enabling User Recourse and Interpretability of Toxicity Detection Models with Interactive Visualization. Proceedings of the ACM on Human-Computer Interaction.

8. বিশেষজ্ঞ বিশ্লেষণ: মূল অন্তর্দৃষ্টি, যৌক্তিক প্রবাহ, শক্তি ও দুর্বলতা, কার্যকরী অন্তর্দৃষ্টি

মূল অন্তর্দৃষ্টি

DICES শুধু আরেকটি ডেটাসেট নয়; এটি মূলধারার এআই নিরাপত্তা মূল্যায়নের জ্ঞানতাত্ত্বিক ভিত্তির একটি প্রত্যক্ষ চ্যালেঞ্জ। গবেষণাপত্রের মূল অন্তর্দৃষ্টি হল যে কথোপকথনে "নিরাপত্তা" হল পাঠ্যের একটি বাইনারি বৈশিষ্ট্য নয়, বরং পাঠ্য এবং একটি নির্দিষ্ট মানব প্রেক্ষাপটের মধ্যে মিথস্ক্রিয়ার একটি উদীয়মান বৈশিষ্ট্য। অসম্মতিকে গড়িয়ে দেওয়ার জন্য শব্দ হিসাবে বিবেচনা করে, আমরা একটি কাল্পনিক, পরিসংখ্যানগত গড় ব্যবহারকারীর জন্য মডেল তৈরি করছি যিনি বিদ্যমান নেই। এই কাজটি, বেন্ডার এট আল. (২০২১) এর "স্টোকাস্টিক প্যারটস" সম্পর্কিত সমালোচনামূলক বৃত্তির পাশাপাশি, একটি হিসাব-নিকাশ বাধ্য করে: আমাদের স্কেলযোগ্য, স্বয়ংক্রিয় নিরাপত্তার সাধনা পদ্ধতিগতভাবে সেই বৈচিত্র্যটিকেই মুছে ফেলতে পারে যা আমরা রক্ষা করার দাবি করি।

যৌক্তিক প্রবাহ

যুক্তিটি আকর্ষণীয় এবং পদ্ধতিগত: ১) ত্রুটি চিহ্নিত করুন: বর্তমান নিরাপত্তা ডেটাসেটগুলি একটি একক গ্রাউন্ড ট্রুথ ধরে নেয়, বিষয়ভিত্তিকতাকে অস্পষ্ট করে। ২) প্রতিষেধক প্রস্তাব করুন: বাস্তবতা ধারণ করতে, আমাদের এমন ডেটা প্রয়োজন যা প্রকরণ সংরক্ষণ করে এবং এটিকে জনসংখ্যার সাথে সংযুক্ত করে। ৩) সরঞ্জাম তৈরি করুন: তাই, DICES—এর ইচ্ছাকৃত জনসংখ্যাগত কাঠামো এবং উচ্চ প্রতিলিপি সহ। ৪) উপযোগিতা প্রদর্শন করুন: এটি নতুন বিশ্লেষণ সক্ষম করে (বন্টন-ভিত্তিক মেট্রিক্স, সমষ্টিকরণ তুলনা) যা আমাদের পছন্দের পরিণতি প্রকাশ করে। যুক্তিটি সমালোচনা থেকে গঠনমূলক সমাধানে নির্বিঘ্নে চলে যায়।

শক্তি ও দুর্বলতা

শক্তি: ধারণাগত ফ্রেমিং হল এর সবচেয়ে বড় সম্পদ। "পক্ষপাত প্রশমন" থেকে "বৈচিত্র্য পরিমাপ" এ স্থানান্তর শুধু শব্দার্থিক নয়—এটি একটি ঘাটতি মডেল থেকে একটি বহুত্ববাদী মডেলে একটি মৌলিক পুনঃঅভিযোজন। প্রযুক্তিগত নকশা (উচ্চ প্রতিলিপি, বন্টন এনকোডিং) শক্তিশালী এবং সরাসরি তার দার্শনিক লক্ষ্য পরিবেশন করে। এটি অন্তর্ভুক্তিমূলক নিরাপত্তা মূল্যায়নের একটি নবজাতক ক্ষেত্রের জন্য একটি অত্যন্ত প্রয়োজনীয় বেঞ্চমার্ক প্রদান করে।

দুর্বলতা ও ফাঁক: প্রিপ্রিন্ট অবস্থার অর্থ হল কংক্রিট, বৃহৎ-স্কেল ফলাফল মুলতুবি রয়েছে, আমাদেরকে কাঠামোর প্রতিশ্রুতিতে বিশ্বাস করতে বাধ্য করে। একটি উল্লেখযোগ্য ফাঁক হল কার্যকরীকরণ চ্যালেঞ্জ: একটি পণ্য দল আসলে এটি কীভাবে ব্যবহার করে? একটি সমষ্টিকরণ কৌশল (সংখ্যাগরিষ্ঠ, ওজনযুক্ত, ন্যূনতম) বেছে নেওয়া এখন একটি জটিল নৈতিক ও পণ্য সিদ্ধান্ত, শুধু একটি প্রযুক্তিগত নয়। ডেটাসেটটি এটি যে জনসংখ্যাগত বিভাগগুলি ব্যবহার করে সেগুলিকে পুনরায় স্থাপনের ঝুঁকিও রাখে; গবেষণাপত্রটি ইন্টারসেকশনালিটির প্রতি ইঙ্গিত করে কিন্তু বিশ্লেষণ এখনও "বয়স" এবং "জাতি" কে স্বাধীন অক্ষ হিসাবে বিবেচনা করতে পারে। তদুপরি, ওয়াং এট আল. (২০২২) এর আরএলএইচএফ এর মতো, এটি মানব রেটারদের উপর নির্ভর করে, সেই প্রক্রিয়ার সমস্ত জটিলতা, খরচ এবং সম্ভাব্য অসঙ্গতি উত্তরাধিকার সূত্রে পায়।

কার্যকরী অন্তর্দৃষ্টি

এআই অনুশীলনকারী এবং নেতাদের জন্য:

  1. তাত্ক্ষণিক নিরীক্ষা: আপনার বর্তমান নিরাপত্তা শ্রেণীবদ্ধকারীদের উপর একটি উপগোষ্ঠী বৈষম্য নিরীক্ষা পরিচালনা করতে DICES কাঠামো (সম্পূর্ণ ডেটাসেট মুক্তির আগেও) ব্যবহার করুন। আপনি একটি ছোট, অভ্যন্তরীণ জনসংখ্যাগত জরিপ দিয়ে শুরু করতে পারেন। প্রশ্নটি "আমাদের মডেল কি নিরাপদ?" নয় বরং "কার জন্য আমাদের মডেল নিরাপদ, এবং এটি কোথায় ব্যর্থ হয়?"
  2. সাফল্যের মেট্রিক্স পুনঃসংজ্ঞায়িত করুন: নিরাপত্তা মূল্যায়ন প্রতিবেদনে ঐতিহ্যগত নির্ভুলতার পাশাপাশি প্রকরণ মেট্রিক্স (যেমন, মূল ব্যবহারকারী সেগমেন্ট জুড়ে রেটিংয়ের স্ট্যান্ডার্ড ডেভিয়েশন) অন্তর্ভুক্ত করার জন্য বাধ্যতামূলক করুন। ৯৫% নির্ভুলতা কিন্তু উচ্চ গোষ্ঠী-মধ্যবর্তী প্রকরণ সহ একটি মডেল ৯০% নির্ভুলতা এবং কম প্রকরণ সহ একটি মডেলের চেয়ে বেশি ঝুঁকিপূর্ণ।
  3. প্রেফারেন্স মডেলিং আর্কিটেকচারে বিনিয়োগ করুন: একটি একক নিরাপত্তা "রিওয়ার্ড মডেল" এর বাইরে যান। মাল্টি-হেডেড রিওয়ার্ড মডেল বা কন্ডিশনাল প্রেফারেন্স নেটওয়ার্কগুলি অন্বেষণ করুন যা (প্রেক্ষাপট, ব্যবহারকারী প্রোফাইল) থেকে উপযুক্ত নিরাপত্তা সীমানা পর্যন্ত ম্যাপিং শিখতে পারে, প্রশিক্ষণের জন্য DICES এর মতো ডেটাসেট ব্যবহার করে।
  4. লুপে নীতিশাস্ত্রবিদ ও সামাজিক বিজ্ঞানীদের এম্বেড করুন: আপনার প্রশিক্ষণ লেবেলগুলির জন্য সমষ্টিকরণ কৌশল পছন্দ করা একটি পণ্য নীতি সিদ্ধান্ত যার নৈতিক প্রভাব রয়েছে। এই সিদ্ধান্তটি সহযোগিতামূলকভাবে নেওয়া উচিত, শুধুমাত্র একটি একক মেট্রিকের জন্য অপ্টিমাইজ করা এমএল ইঞ্জিনিয়ারদের দ্বারা নয়।

DICES সফলভাবে যুক্তি দেয় যে বৈচিত্র্য উপেক্ষা করা একটি অস্তিত্বগত প্রযুক্তিগত ঝুঁকি। পরবর্তী ধাপ হল সেই প্রকৌশল এবং পণ্য ব্যবস্থাপনা অনুশীলনগুলি তৈরি করা যা এটি প্রকাশ করে এমন জটিলতা পরিচালনা করতে পারে।