1. Pengenalan
Penyebaran sistem AI perbualan yang dibina berdasarkan Model Bahasa Besar (LLM) telah menjadikan penilaian keselamatan sebagai satu kebimbangan kritikal. Pendekatan tradisional selalunya bergantung pada set data dengan pemisahan binari yang jelas antara kandungan "selamat" dan "tidak selamat", yang secara semula jadi terlalu memudahkan sifat subjektif dan berkonteks budaya bagi keselamatan. Set data DICES (Kepelbagaian dalam Penilaian AI Perbualan untuk Keselamatan), diperkenalkan oleh penyelidik dari Google Research, City University of London, dan University of Cambridge, menangani jurang ini dengan menyediakan sumber yang menangkap varians semula jadi, kekaburan, dan kepelbagaian perspektif manusia terhadap keselamatan AI.
DICES direka dengan tiga prinsip teras: 1) penyertaan maklumat demografi terperinci tentang penilai (contohnya, kumpulan kaum/etnik, umur, jantina), 2) replikasi penilaian yang tinggi bagi setiap item perbualan untuk memastikan kuasa statistik, dan 3) pengekodan undi penilai sebagai taburan merentas demografi untuk membolehkan penerokaan strategi pengagregatan yang berbeza. Reka bentuk ini melangkaui satu "kebenaran asas" tunggal dan sebaliknya memperlakukan keselamatan sebagai satu konstruk pelbagai dimensi yang bergantung kepada populasi.
1.1. Sumbangan
Sumbangan utama set data DICES dan penyelidikan yang menyertainya adalah:
- Kepelbagaian Penilai sebagai Ciri Teras: Mengalihkan tumpuan daripada mengurangkan "bias" kepada menerima dan menganalisis "kepelbagaian" dalam pendapat penilai.
- Kerangka untuk Analisis Terperinci: Menyediakan struktur set data yang membolehkan penerokaan mendalam tentang bagaimana persepsi keselamatan bersilang dengan kategori demografi.
- Penanda Aras untuk Penilaian Bernuansa: Menetapkan DICES sebagai sumber bersama untuk menilai sistem AI perbualan dengan cara yang menghormati pelbagai sudut pandangan, melangkaui skor keselamatan monolitik.
2. Teras Pandangan & Aliran Logik
Teras Pandangan: Kecacatan asas dalam penilaian keselamatan AI arus perdana bukanlah kekurangan data, tetapi kekurangan data yang mewakili dan terasing. Memperlakukan keselamatan sebagai tugas klasifikasi binari yang objektif adalah satu penyederhanaan berbahaya yang menghapuskan nuansa budaya dan boleh membawa kepada sistem yang "selamat" hanya untuk demografi dominan. DICES mengenal pasti dengan betul bahawa keselamatan adalah satu konstruk sosial, dan penilaiannya mestilah statistik, bukan deterministik.
Aliran Logik: Hujah kertas kerja ini sangat tajam: 1) Penalaan halus keselamatan LLM semasa bergantung pada set data yang dipermudahkan. 2) Penyederhanaan ini mengabaikan varians subjektif, yang amat bermasalah untuk keselamatan—satu konsep yang berkonteks sosial. 3) Oleh itu, kita memerlukan kelas set data baharu yang menangkap varians ini secara eksplisit melalui kepelbagaian demografi dan replikasi penilai yang tinggi. 4) DICES menyediakan ini, membolehkan analisis yang mendedahkan kumpulan mana mendapati kandungan mana tidak selamat dan pada tahap mana. Aliran ini secara logiknya meruntuhkan mitos piawaian keselamatan sejagat dan menggantikannya dengan kerangka untuk memahami landskap keselamatan.
3. Kekuatan & Kelemahan
Kekuatan:
- Reka Bentuk Mengubah Paradigma: Pergerakan daripada label binari kepada taburan demografi adalah ciri utamanya. Ia memaksa bidang ini berhadapan dengan kepelbagaian keselamatan.
- Ketegasan Statistik: Replikasi tinggi setiap item adalah tidak boleh dirunding untuk analisis demografi yang bermakna, dan DICES melakukannya dengan betul. Ia menyediakan kuasa statistik yang diperlukan untuk melangkaui anekdot.
- Boleh Tindak untuk Pembangunan Model: Ia bukan sekadar mendiagnosis masalah; ia menyediakan struktur (taburan) yang boleh terus memaklumkan penalaan halus dan metrik penilaian yang lebih bernuansa, sama seperti bagaimana pengkuantitian ketidakpastian meningkatkan penentukuran model.
Kelemahan & Soalan Terbuka:
- "Lembaga Sempit Demografi": Walaupun ia termasuk demografi utama, pemilihan kategori (kaum, umur, jantina) adalah titik permulaan. Ia terlepas interseksionaliti (contohnya, wanita kulit hitam muda) dan paksi lain seperti status sosioekonomi, kecacatan, atau geografi budaya, yang sama kritikalnya untuk gambaran penuh.
- Cabaran Pengoperasianan: Kertas kerja ini kurang membincangkan bagaimana. Bagaimana sebenarnya pembangun model harus menggunakan taburan ini? Adakah anda menala halus kepada min? Mod? Atau membangunkan sistem yang boleh menyesuaikan penapis keselamatannya berdasarkan demografi pengguna yang disimpulkan? Langkah daripada data kaya kepada amalan kejuruteraan adalah tebing seterusnya untuk dinaiki.
- Gambar Statik: Norma sosial mengenai keselamatan berkembang. Satu set data, tidak kira betapa pelbagainya, adalah satu gambar statik. Kerangka ini kekurangan laluan yang jelas untuk kemas kini berterusan dan dinamik persepsi keselamatan ini, satu cabaran yang juga dihadapi oleh set data etika statik lain.
4. Pandangan Boleh Tindak
Untuk pengamal AI dan pemimpin produk:
- Audit Segera: Gunakan kerangka DICES (taburan, bukan min) untuk mengaudit pengelas keselamatan semasa anda. Anda mungkin akan mendapati ia sejajar dengan kepingan demografi yang sempit. Ini adalah risiko reputasi dan produk.
- Takrif Semula Metrik Anda: Hentikan pelaporan satu "skor keselamatan" tunggal. Laporkan profil keselamatan: "Output model ini selari dengan persepsi keselamatan Kumpulan A dengan peratusan persetujuan X% dan menyimpang daripada Kumpulan B mengenai topik Y dan Z." Ketelusan membina kepercayaan.
- Melabur dalam Keselamatan Adaptif: Matlamat akhir bukanlah satu model yang sempurna selamat, tetapi model yang boleh memahami konteks, termasuk konteks pengguna. Pelaburan penyelidikan harus beralih daripada penapis keselamatan monolitik kepada mekanisme keselamatan yang sedar konteks dan berpotensi diperibadikan untuk pengguna, memastikan tingkah laku model sesuai untuk khalayaknya. Kerja mengenai penjajaran nilai dalam etika AI, seperti yang dibincangkan oleh Stanford Institute for Human-Centered AI (HAI), menekankan bahawa penjajaran mesti dengan kepelbagaian nilai manusia, bukan satu set tunggal.
5. Kerangka Teknikal & Reka Bentuk Set Data
Set data DICES dibina berdasarkan perbualan manusia-bot yang dinilai untuk keselamatan oleh kumpulan penilai yang besar dan berstrata demografi. Inovasi utama adalah struktur data: daripada menyimpan satu label tunggal (contohnya, "tidak selamat"), setiap item perbualan dikaitkan dengan tatasusunan penilaian pelbagai dimensi yang dipecahkan mengikut kelompok demografi.
Untuk perbualan tertentu $c_i$, set data tidak menyediakan $label(c_i) \in \{0, 1\}$. Sebaliknya, ia menyediakan satu set respons penilai $R_i = \{r_{i,1}, r_{i,2}, ..., r_{i,N}\}$, di mana setiap respons $r_{i,j}$ adalah satu tupel $(v_{i,j}, d_{i,j})$. Di sini, $v_{i,j}$ adalah keputusan keselamatan (contohnya, pada skala Likert atau binari), dan $d_{i,j}$ adalah vektor yang mengekod atribut demografi penilai (contohnya, $d_{i,j} = [\text{jantina}=G1, \text{umur}=A2, \text{etnik}=E3]$).
5.1. Perwakilan Matematik bagi Taburan Penilai
Kuasa analitikal teras datang daripada pengagregatan penilaian individu ini kepada taburan. Untuk kepingan demografi tertentu $D_k$ (contohnya, "Asia, 30-39, Perempuan"), kita boleh mengira taburan skor keselamatan untuk perbualan $c_i$:
$P(\text{skor} = s | c_i, D_k) = \frac{|\{r \in R_i : v(r)=s \land d(r) \in D_k\}|}{|\{r \in R_i : d(r) \in D_k\}|}$
Ini membolehkan pengiraan bukan sahaja min skor keselamatan $\mu_{i,k}$, tetapi lebih penting, ukuran varians ($\sigma^2_{i,k}$), kekaburan (contohnya, entropi taburan $H(P)$), dan perbezaan antara kumpulan demografi (contohnya, perbezaan KL $D_{KL}(P_{i,k} || P_{i,l})$). Formalisme matematik ini adalah penting untuk melangkaui purata yang terlalu dipermudahkan.
6. Keputusan Eksperimen & Analisis
Walaupun petikan PDF yang disediakan adalah pracetak yang sedang ditinjau dan tidak mengandungi keputusan eksperimen penuh, set data yang diterangkan membolehkan beberapa analisis utama yang biasanya akan dibentangkan dalam carta:
- Carta 1: Peta Haba Perbezaan Pendapat Demografi: Visualisasi matriks yang menunjukkan perbezaan berpasangan (contohnya, jarak Jensen-Shannon) dalam taburan skor keselamatan antara kumpulan demografi yang berbeza (contohnya, Kumpulan A: Lelaki Putih 50+ vs. Kumpulan B: Perempuan Hispanik 18-29) merentas sampel topik perbualan kontroversi. Carta ini akan menonjolkan dengan jelas di mana persepsi paling kuat menyimpang.
- Carta 2: Plot Serakan Kekaburan vs. Konsensus: Memplot setiap item perbualan berdasarkan skor keselamatan puratanya (paksi-x) dan entropi taburan penilaian keseluruhannya (paksi-y). Ini akan memisahkan item yang dilihat secara universal sebagai selamat/tidak selamat (entropi rendah, konsensus tinggi) daripada yang sangat kabur (entropi tinggi).
- Carta 3: Carta Bar Pemisahan Prestasi Model: Membandingkan prestasi (contohnya, skor F1) pengelas keselamatan piawai apabila dinilai terhadap "kebenaran asas" yang ditakrifkan oleh kumpulan demografi yang berbeza. Penurunan prestasi yang ketara untuk kumpulan tertentu akan menunjukkan penjajaran model itu condong.
Kekuatan DICES adalah ia menjana data yang diperlukan untuk mencipta carta-carta ini, mengalihkan penilaian daripada satu nombor tunggal kepada papan pemuka pelbagai dimensi.
7. Kerangka Analisis: Kajian Kes Contoh
Skenario: Satu AI perbualan menjana satu jenaka sebagai respons kepada permintaan pengguna. Data latihan dan penilaian keselamatan piawai melabelkannya sebagai "selamat" (humor).
Analisis Berasaskan DICES:
- Pengambilan Data: Pertanyaan set data DICES untuk item perbualan serupa yang melibatkan humor atau jenaka mengenai topik berkaitan.
- Analisis Taburan: Periksa taburan penilaian keselamatan. Anda mungkin mendapati:
- $P(\text{tidak selamat} | \text{umur}=18-29) = 0.15$
- $P(\text{tidak selamat} | \text{umur}=60+) = 0.65$
- $P(\text{tidak selamat} | \text{etnik}=E1) = 0.20$
- $P(\text{tidak selamat} | \text{etnik}=E2) = 0.55$
- Tafsiran: "Keselamatan" jenaka ini bukanlah satu fakta tetapi satu fungsi demografi. Output model, walaupun secara teknikalnya mematuhi peraturan "keselamatan" yang luas, membawa risiko tinggi untuk dianggap sebagai menyinggung perasaan oleh warga emas dan ahli kumpulan etnik E2.
- Tindakan: Pendekatan yang terlalu dipermudahkan adalah menyekat semua jenaka. Pendekatan bernuansa, dimaklumkan oleh DICES, boleh: a) Tandakan kandungan jenis ini sebagai "varians demografi tinggi," b) Bangunkan modul konteks pengguna yang membolehkan model menyesuaikan gaya humornya, atau c) Berikan nota ketelusan: "Respons ini menggunakan humor. Persepsi humor berbeza secara meluas merentas budaya dan kumpulan umur."
Kajian kes ini menggambarkan bagaimana DICES mengalihkan soalan daripada "Adakah ini selamat?" kepada "Selamat untuk siapa, dan di bawah keadaan apa?"
8. Aplikasi Masa Depan & Hala Tuju Penyelidikan
Kerangka DICES membuka beberapa laluan kritikal untuk kerja masa depan:
- Model Keselamatan Diperibadikan & Adaptif: Titik akhir logik bukanlah satu penapis keselamatan satu-saiz-untuk-semua, tetapi model yang boleh menyimpulkan konteks pengguna yang relevan (dengan perlindungan privasi yang sesuai) dan menyesuaikan ambang keselamatan atau strategi penjanaan kandungannya dengan sewajarnya. Ini selari dengan trend lebih luas dalam ML ke arah pempersonalisan, seperti yang dilihat dalam sistem cadangan.
- Penilaian Dinamik dan Berterusan: Membangunkan kaedah untuk mengemas kini set data persepsi keselamatan seperti DICES secara berterusan dalam masa hampir nyata, menangkap norma sosial yang berkembang dan kontroversi yang muncul, sama seperti bagaimana model bahasa itu sendiri dikemas kini secara berterusan.
- Alat Analisis Interseksional: Memperluaskan kerangka demografi untuk menangkap identiti interseksional dengan lebih baik, melangkaui kategori bebas untuk memahami pengalaman berganda individu yang tergolong dalam pelbagai kumpulan minoriti.
- Integrasi dengan Pembelajaran Pengukuhan daripada Maklum Balas Manusia (RLHF): Menggunakan maklum balas manusia terasing daripada set data seperti DICES untuk melatih model ganjaran yang sensitif kepada penjajaran demografi, menghalang pengoptimuman untuk satu tanggapan "baik" atau "selamat" perbualan yang sempit dan berpotensi. Ini menangani satu batasan yang diketahui dalam RLHF piawai, seperti yang diketengahkan dalam penyelidikan dari Anthropic dan DeepMind mengenai pengawasan boleh skala.
- Pengembangan Global: Menskala pengumpulan data ke tahap benar-benar global, merangkumi budaya dan bahasa bukan Barat, untuk memerangi bias berpusat Anglo yang lazim dalam banyak sumber keselamatan AI.
9. Rujukan
- Aroyo, L., Taylor, A. S., Díaz, M., Homan, C. M., Parrish, A., Serapio-García, G., Prabhakaran, V., & Wang, D. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
- Bommasani, R., et al. (2021). On the Opportunities and Risks of Foundation Models. Stanford Center for Research on Foundation Models (CRFM).
- Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).
- Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems (NeurIPS).
- Stanford Institute for Human-Centered AI (HAI). (2023). The AI Index Report 2023. Stanford University.
- Weidinger, L., et al. (2021). Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359.
- Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (Dirujuk sebagai contoh kerangka—CycleGAN—yang mengendalikan data berbilang mod tidak berpasangan, analog dengan DICES mengendalikan pertimbangan manusia pelbagai dan tidak sejajar).