Set Data DICES: Kepelbagaian dalam Penilaian Keselamatan AI Perbualan

1. Pengenalan

Penyebaran sistem AI perbualan yang dibina berdasarkan Model Bahasa Besar (LLM) telah menjadikan penilaian keselamatan sebagai satu kebimbangan kritikal. Pendekatan tradisional selalunya bergantung pada set data dengan pemisahan binari yang jelas antara kandungan "selamat" dan "tidak selamat", yang terlalu memudahkan sifat keselamatan yang sememangnya subjektif dan berkonteks budaya. Kertas kerja ini memperkenalkan set data DICES (Kepelbagaian dalam Penilaian AI Perbualan untuk Keselamatan), yang direka untuk menangkap dan menganalisis variasi dalam persepsi keselamatan merentas populasi manusia yang pelbagai.

Masalah teras yang ditangani adalah pengabaian kepelbagaian demografi dan perspektif dalam set data keselamatan sedia ada, yang boleh membawa kepada model yang tidak selari dengan norma kumpulan pengguna tertentu dan mempunyai "kesan yang tidak diingini atau malah bencana dalam tetapan dunia sebenar."

1.1. Sumbangan

Sumbangan utama set data DICES dan kerja ini adalah:

Kepelbagaian Penilai: Mengalihkan tumpuan daripada mengurangkan "bias" kepada menerima dan mengukur "kepelbagaian" dalam pendapat penilai.
Anotasi Demografi Terperinci: Termasuk maklumat demografi terperinci (kumpulan kaum/etnik, umur, jantina) untuk setiap penilai.
Replikasi Tinggi per Item: Setiap item perbualan menerima sejumlah besar penilaian untuk memastikan kuasa statistik bagi analisis subkumpulan.
Perwakilan Berasaskan Taburan: Menyandikan undi keselamatan sebagai taburan merentas kumpulan demografi, membolehkan penerokaan strategi pengagregatan yang berbeza selain undian majoriti.
Kerangka untuk Analisis: Menyediakan asas untuk menetapkan metrik baharu yang menyilangkan penilaian penilai dengan kategori demografi.

2. Kerangka Set Data DICES

DICES dibina sebagai sumber dan penanda aras bersama untuk menghormati pelbagai perspektif semasa penilaian keselamatan. Ia melangkaui label kebenaran tunggal.

2.1. Prinsip Reka Bentuk Teras

Kepelbagaian Disengajakan: Kumpulan penilai distrukturkan untuk mempunyai perkadaran seimbang daripada subkumpulan demografi utama.
Ketegasan Statistik: Replikasi tinggi penilaian per item perbualan membolehkan analisis yang kukuh bagi persetujuan, ketidaksetujuan, dan variasi dalam dan antara kumpulan.
Keselamatan Berkonteks: Penilaian adalah berdasarkan perbualan manusia-bot, menangkap keselamatan dalam konteks interaktif yang dinamik dan bukannya pada promp terpencil.

2.2. Komposisi & Statistik Set Data

Demografi Penilai

Kumpulan pelbagai merentas kumpulan kaum/etnik, lingkungan umur, dan jantina.

Penilaian per Item

Bilangan replikat yang sangat tinggi (contohnya, 50+ penilaian per perbualan) untuk membolehkan analisis subkumpulan yang berkuasa.

Struktur Data

Setiap titik data menghubungkan satu perbualan, profil demografi penilai, dan penilaian keselamatan mereka (contohnya, skala Likert atau kategori).

3. Metodologi Teknikal & Kerangka Analisis

Inovasi teknikal terletak pada memperlakukan keselamatan bukan sebagai skalar tetapi sebagai taburan pelbagai dimensi.

3.1. Mewakili Keselamatan sebagai Taburan

Untuk item perbualan tertentu $i$, keselamatan diwakili bukan oleh satu label $y_i$ tetapi oleh taburan penilaian merentas $K$ kumpulan demografi. Biarkan $R_{i,g}$ menjadi set penilaian untuk item $i$ daripada penilai dalam kumpulan $g$. Profil keselamatan untuk item $i$ ialah vektor: $\mathbf{S}_i = (\bar{R}_{i,1}, \bar{R}_{i,2}, ..., \bar{R}_{i,K})$, di mana $\bar{R}_{i,g}$ ialah kecenderungan memusat (contohnya, min, median) penilaian dalam kumpulan $g$.

Metrik varians seperti $\sigma^2_{i,g}$ (varians dalam kumpulan) dan $\Delta_{i, g1, g2} = |\bar{R}_{i,g1} - \bar{R}_{i,g2}|$ (ketidaksetujuan antara kumpulan) boleh dikira untuk mengkuantifikasi kekaburan dan perbezaan perspektif.

3.2. Strategi & Metrik Pengagregatan

DICES membolehkan perbandingan kaedah pengagregatan label yang berbeza:

Undian Majoriti (Garis Asas): $y_i^{maj} = \text{mode}(\bigcup_{g=1}^{K} R_{i,g})$
Pengagregatan Berwajaran Demografi: $y_i^{weighted} = \sum_{g=1}^{K} w_g \cdot \bar{R}_{i,g}$, di mana $w_g$ boleh berkadar dengan saiz populasi atau pemberat lain yang berfokuskan ekuiti.
Keselamatan Minimum (Konservatif): $y_i^{min} = \min(\bar{R}_{i,1}, ..., \bar{R}_{i,K})$ mengutamakan perspektif kumpulan yang paling sensitif.

Metrik baharu seperti Indeks Ketidaksetujuan Demografi (DDI) atau Skor Penjajaran Subkumpulan boleh diterbitkan untuk mengukur bagaimana prestasi model berbeza merentas kumpulan.

4. Keputusan Eksperimen & Penemuan Utama

Walaupun petikan PDF yang disediakan adalah pracetak yang sedang dalam semakan dan tidak mengandungi keputusan penuh, kerangka yang dicadangkan membawa kepada beberapa penemuan yang dijangka:

Varians Signifikan: Tahap ketidaksetujuan dalam kumpulan dan antara kumpulan yang tinggi pada label keselamatan untuk subset item perbualan yang besar, mencabar tanggapan piawaian keselamatan sejagat.
Korelasi Demografi: Perbezaan sistematik dalam penilaian keselamatan diperhatikan merentas garis umur, kaum/etnik, dan jantina untuk topik atau nada perbualan tertentu (contohnya, humor, kejelasan, rujukan budaya).
Kesan Pengagregatan: Pemilihan strategi pengagregatan (majoriti vs. berwajaran vs. min) membawa kepada label keselamatan akhir yang berbeza secara material untuk 15-30% item, memberi kesan ketara terhadap perbualan mana yang akan dilatih oleh model untuk dielakkan atau dibenarkan.
Jurang Penilaian Model: Model yang dianggap "selamat" oleh set ujian agregat majoriti mungkin menunjukkan kadar ralat yang jauh lebih tinggi (contohnya, +20% negatif/positif palsu) apabila dinilai terhadap keutamaan subkumpulan demografi minoriti tertentu.

Penerangan Carta (Konseptual): Carta pelbagai aspek akan menjadi pusat untuk membentangkan keputusan. Panel A menunjukkan peta hab skor keselamatan purata (skala 1-5) untuk 100 item perbualan (baris) merentas 4 kumpulan demografi (lajur), mendedahkan corak penjajaran dan ketidaksetujuan. Panel B ialah carta bar yang membandingkan panggilan akhir "selamat/tidak selamat" untuk 20 item kabur di bawah tiga strategi pengagregatan, secara visual menunjukkan akibat pilihan pengagregatan. Panel C memplot ketepatan model untuk kumpulan majoriti berbanding ketepatannya untuk kumpulan minoriti tertentu, dengan banyak titik jatuh di bawah garis kesaksamaan, menggambarkan perbezaan prestasi.

5. Kerangka Analisis: Kajian Kes Praktikal

Skenario: Pasukan pembangunan sedang menala halus pembantu AI perbualan untuk aplikasi perkhidmatan pelanggan global. Mereka menggunakan set data keselamatan standard untuk menapis data latihan. Mereka kini ingin menggunakan DICES untuk mengaudit penjajaran keselamatan model mereka untuk asas pengguna yang berbeza.

Langkah Analisis:

Audit Prestasi Subkumpulan: Jalankan model pada promp perbualan DICES. Kumpulkan respons yang dihasilkannya. Dapatkan kumpulan penilai baharu yang pelbagai demografi (atau gunakan penilaian asal DICES jika promp serupa) untuk menilai keselamatan perbualan yang dihasilkan model ini. Kira ketepatan/ingatan/F1 untuk pengesanan keselamatan secara berasingan untuk penilai dalam Kumpulan A (contohnya, umur 18-30, Amerika Utara) dan Kumpulan B (contohnya, umur 50+, Asia Tenggara).
Mengenalpasti Titik Panas Ketidaksetujuan: Asingkan topik atau gaya perbualan di mana jurang prestasi antara Kumpulan A dan Kumpulan B adalah terbesar (contohnya, >30% perbezaan dalam kadar keselamatan yang dirasakan). Ini menunjuk kawasan khusus di mana penjajaran keselamatan model tidak teguh.
Meneroka Strategi Pengagregatan: Simulasikan penalaan halus model menggunakan label keselamatan yang diperoleh daripada DICES menggunakan: a) Undian majoriti, b) Skema pemberatan yang melebihwakili demografi wilayah sasaran (Kumpulan B). Bandingkan tingkah laku model yang terhasil. Kerangka DICES menyediakan data untuk membuat pilihan termaklum ini dan bukannya bergantung pada peraturan majoriti secara lalai.
Hasil: Pasukan mendapati model semasa mereka 25% lebih berkemungkinan menghasilkan respons yang dianggap sebagai "agresif" atau "tidak selamat" oleh penilai Asia Tenggara yang lebih tua dalam konteks rundingan. Mereka memutuskan untuk menggunakan fungsi kerugian berwajaran demografi semasa kitaran penalaan halus seterusnya untuk meningkatkan penjajaran untuk segmen pengguna utama itu.

6. Aplikasi Masa Depan & Hala Tuju Penyelidikan

Adaptasi Keselamatan Dinamik: Model yang boleh menyimpulkan konteks/demografi pengguna (dengan langkah privasi yang sesuai) dan menyesuaikan pengawal keselamatan/perbualan mereka secara masa nyata, menggunakan kerangka seperti DICES sebagai rujukan untuk variasi yang boleh diterima.
Penjajaran AI Peribadi: Memperluaskan paradigma daripada keselamatan kepada kualiti subjektif lain (kebolehgunaan, humor, kesopanan) membolehkan pengguna menentukur personaliti AI dalam lingkungan keutamaan yang disahkan komuniti.
Formulasi Dasar & Piawaian: Memberi maklumat kepada piawaian industri dan peraturan untuk penilaian keselamatan AI. DICES menyediakan metodologi untuk mentakrifkan ambang "ketidaksetujuan munasabah" dan untuk mewajibkan penilaian kesan subkumpulan, serupa dengan audit keadilan dalam algoritma pengambilan pekerja.
Latihan Model Rentas Budaya: Secara aktif menggunakan set data seperti DICES untuk melatih model yang secara eksplisit sedar akan kepelbagaian perspektif, mungkin melalui pembelajaran pelbagai tugas atau seni bina pemodelan keutamaan yang diilhamkan oleh pembelajaran pengukuhan daripada maklum balas manusia (RLHF) tetapi dengan pelbagai model ganjaran khusus kumpulan.
Kajian Longitudinal: Menjejaki bagaimana persepsi keselamatan dalam dan merentas demografi berkembang dari semasa ke semasa sebagai tindak balas kepada perubahan teknologi dan sosial, memerlukan versi terkini set data DICES.

7. Rujukan

Aroyo, L., et al. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.
Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Findings of the Association for Computational Linguistics: EMNLP 2020.
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Prabhakaran, V., Denton, E., Webster, K., & Conover, A. (2022). Creativity, Caution, and Collaboration: Understanding and Supporting Human-AI Co-creativity. Proceedings of the ACM on Human-Computer Interaction.
Xu, J., et al. (2020). RECAST: Enabling User Recourse and Interpretability of Toxicity Detection Models with Interactive Visualization. Proceedings of the ACM on Human-Computer Interaction.

8. Analisis Pakar: Inti Pati, Aliran Logik, Kekuatan & Kelemahan, Panduan Tindakan

Inti Pati

DICES bukan sekadar satu lagi set data; ia adalah satu cabaran langsung kepada asas epistemologi penilaian keselamatan AI arus perdana. Inti pati kertas kerja ini adalah bahawa "keselamatan" dalam perbualan bukan sifat binari teks, tetapi sifat yang muncul daripada interaksi antara teks dan konteks manusia tertentu. Dengan memperlakukan ketidaksetujuan sebagai hingar yang perlu diratakan, kita telah membina model untuk pengguna purata statistik yang fiksyen dan tidak wujud. Kerja ini, bersama-sama dengan kajian kritikal seperti Bender et al. (2021) mengenai "burung kakak tua stokastik", memaksa satu perhitungan: usaha kita untuk keselamatan berskala, automatik mungkin secara sistematik memadamkan kepelbagaian yang kita dakwa lindungi.

Aliran Logik

Hujahnya menarik dan metodikal: 1) Kenal pasti Kelemahan: Set data keselamatan semasa menganggap satu kebenaran asas, mengaburkan subjektiviti. 2) Cadangkan Penawar: Untuk menangkap realiti, kita memerlukan data yang mengekalkan varians dan menghubungkannya dengan demografi. 3) Bina Alat: Oleh itu, DICES—dengan struktur demografi yang disengajakan dan replikasi tinggi. 4) Tunjukkan Kegunaan: Ia membolehkan analisis baharu (metrik berasaskan taburan, perbandingan pengagregatan) yang mendedahkan akibat pilihan kita. Logik bergerak daripada kritikan kepada penyelesaian konstruktif dengan lancar.

Kekuatan & Kelemahan

Kekuatan: Pembingkaian konseptual adalah aset terbesarnya. Beralih daripada "pengurangan bias" kepada "pengukuran kepelbagaian" adalah lebih daripada semantik—ia adalah orientasi semula asas daripada model defisit kepada model pluralistik. Reka bentuk teknikal (replikasi tinggi, penyandian taburan) adalah teguh dan secara langsung menyokong matlamat falsafahnya. Ia menyediakan penanda aras yang sangat diperlukan untuk bidang penilaian keselamatan inklusif yang baru muncul.

Kelemahan & Jurang: Status pracetak bermakna keputusan konkrit, berskala besar masih menunggu, meninggalkan kita untuk mempercayai janji kerangka tersebut. Satu jurang penting adalah cabaran pengoperasianan: Bagaimanakah pasukan produk sebenarnya menggunakan ini? Memilih strategi pengagregatan (majoriti, berwajaran, min) kini adalah keputusan etika dan produk yang rumit, bukan sekadar teknikal. Set data ini juga berisiko mengukuhkan kategori demografi yang digunakannya; kertas kerja ini menganggukkan kepada interseksionaliti tetapi analisis mungkin masih memperlakukan "umur" dan "bangsa" sebagai paksi bebas. Tambahan pula, seperti RLHF Ouyang et al. (2022), ia bergantung pada penilai manusia, mewarisi semua kerumitan, kos, dan potensi ketidakkonsistenan proses tersebut.

Panduan Tindakan

Untuk pengamal dan pemimpin AI:

Audit Segera: Gunakan kerangka DICES (walaupun sebelum pelepasan penuh set data) untuk menjalankan audit perbezaan subkumpulan pada pengelas keselamatan semasa anda. Anda boleh bermula dengan tinjauan demografi dalaman yang lebih kecil. Soalannya bukan "adakah model kita selamat?" tetapi "untuk siapa model kita selamat, dan di mana ia gagal?"
Takrif Semula Metrik Kejayaan: Wajibkan laporan penilaian keselamatan termasuk metrik varians (contohnya, sisihan piawai penilaian merentas segmen pengguna utama) bersama-sama ketepatan tradisional. Model dengan ketepatan 95% tetapi varians antara kumpulan tinggi adalah lebih berisiko daripada model dengan ketepatan 90% dan varians rendah.
Labur dalam Seni Bina Pemodelan Keutamaan: Melangkaui satu "model ganjaran" keselamatan. Teroka model ganjaran berbilang kepala atau rangkaian keutamaan bersyarat yang boleh mempelajari pemetaan daripada (konteks, profil pengguna) kepada sempadan keselamatan yang sesuai, menggunakan set data seperti DICES untuk latihan.
Benamkan Ahli Etika & Sains Sosial dalam Gelung: Pemilihan strategi pengagregatan untuk label latihan anda adalah keputusan dasar produk dengan implikasi etika. Keputusan ini mesti dibuat secara kolaboratif, bukan semata-mata oleh jurutera ML yang mengoptimumkan untuk satu metrik.

DICES berjaya berhujah bahawa mengabaikan kepelbagaian adalah risiko teknikal eksistensial. Langkah seterusnya adalah membina amalan kejuruteraan dan pengurusan produk yang boleh mengendalikan kerumitan yang dinyatahkannya.