Chagua Lugha

Seti ya Data ya DICES: Utofauti katika Tathmini ya Usalama wa AI ya Mazungumzo

Kuanzisha seti ya data ya DICES kwa tathmini ya kina ya usalama wa AI ya mazungumzo, ikikamata mitazamo tofauti ya binadamu kwa vikundi mbalimbali vya watu, kuelekea mbinu zaidi ya njia moja ya ukweli.
agi-friend.com | PDF Size: 0.4 MB
Ukadiriaji: 4.5/5
Ukadiriaji Wako
Umekadiria waraka huu tayari
Kifuniko cha Waraka PDF - Seti ya Data ya DICES: Utofauti katika Tathmini ya Usalama wa AI ya Mazungumzo

1. Utangulizi

Kuenea kwa mifumo ya AI ya mazungumzo iliyojengwa juu ya Mfano wa Lugha Kubwa (LLMs) kumeifanya tathmini ya usalama kuwa suala muhimu. Njia za jadi mara nyingi hutegemea seti za data zilizo na utofautishaji wazi wa "salama" na "asiyo salama", jambo ambalo hurahisisha sana asili ya kimaadili na kitamaduni ya usalama. Karatasi hii inaanzisha seti ya data ya DICES (Utofauti katika Tathmini ya AI ya Mazungumzo kwa Usalama), iliyoundwa kukamata na kuchambua tofauti katika mitazamo ya usalama kati ya watu wa vikundi mbalimbali.

Tatizo kuu linaloshughulikiwa ni kupuuza utofauti wa kijamii na kimaoni katika seti za data za usalama zilizopo, ambazo zinaweza kusababisha mifano isiendane na kanuni za vikundi maalum vya watumiaji na kuwa na "athari zisizotakikana au hata mbaya katika mazingira halisi."

1.1. Michango

Michango mikuu ya seti ya data ya DICES na kazi hii ni:

  • Utofauti wa Watathmini: Kuhama mwelekeo kutoka kwa "kupunguza upendeleo" hadi "kukumbatia na kupima utofauti" katika maoni ya watathmini.
  • Maelezo ya Kina ya Kijamii: Inajumuisha maelezo ya kina ya kijamii (kikundi cha rangi/ukabila, umri, jinsia) kwa kila mtathmini.
  • Urejeshaji wa Juu kwa Kipengele: Kila kipengele cha mazungumzo hupokea idadi kubwa ya tathmini ili kuhakikisha nguvu ya takwimu kwa uchambuzi wa vikundi vidogo.
  • Uwakilishi Kulingana na Usambazaji: Inaweka kura za usalama kama usambazaji kwa vikundi vya kijamii, ikiruhusu uchunguzi wa mikakati tofauti ya muunganisho zaidi ya kura nyingi.
  • Mfumo wa Uchambuzi: Hutoa msingi wa kuanzisha vipimo vipya vinavyounganisha tathmini za watathmini na kategoria za kijamii.

2. Mfumo wa Seti ya Data ya DICES

DICES imejengwa kama rasilimali ya pamoja na kiwango cha kulinganisha ili kuheshimu mitazamo tofauti wakati wa tathmini ya usalama. Inaendelea zaidi ya lebo moja ya ukweli.

2.1. Kanuni Muhimu za Ubunifu

  • Utofauti wa Makusudi: Kundi la watathmini limepangwa kuwa na uwiano sawa kutoka kwa vikundi vidogo muhimu vya kijamii.
  • Uadilifu wa Takwimu: Urejeshaji wa juu wa tathmini kwa kila kipengele cha mazungumzo huruhusu uchambuzi thabiti wa makubaliano, kutokubaliana, na tofauti ndani na kati ya vikundi.
  • Usalama wa Kimuktadha: Tathmini zinatokana na mazungumzo ya binadamu na roboti, ikikamata usalama katika muktadha wa mwingiliano, badala ya kauli pekee.

2.2. Muundo na Takwimu za Seti ya Data

Takwimu za Kijamii za Watathmini

Kundi tofauti la watathmini kutoka kwa vikundi vya rangi/ukabila, umri, na jinsia.

Tathmini kwa Kipengele

Idadi kubwa ya urejeshaji (kwa mfano, tathmini 50+ kwa kila mazungumzo) ili kuwezesha uchambuzi wenye nguvu wa vikundi vidogo.

Muundo wa Data

Kila sehemu ya data inaunganisha mazungumzo, wasifu wa kijamii wa mtathmini, na tathmini yao ya usalama (kwa mfano, kiwango cha Likert au kategoria).

3. Mbinu ya Kiufundi na Mfumo wa Uchambuzi

Ubunifu wa kiufundi upo katika kutibu usalama sio kama kipimo kimoja bali kama usambazaji wa pande nyingi.

3.1. Kuwakilisha Usalama kama Usambazaji

Kwa kipengele fulani cha mazungumzo $i$, usalama hauwakilishwi na lebo moja $y_i$ bali na usambazaji wa tathmini kwa vikundi $K$ vya kijamii. Acha $R_{i,g}$ iwe seti ya tathmini za kipengele $i$ kutoka kwa watathmini wa kikundi $g$. Wasifu wa usalama wa kipengele $i$ ni vekta: $\mathbf{S}_i = (\bar{R}_{i,1}, \bar{R}_{i,2}, ..., \bar{R}_{i,K})$, ambapo $\bar{R}_{i,g}$ ni mwelekeo wa kati (kwa mfano, wastani, wastani wa kati) wa tathmini katika kikundi $g$.

Vipimo vya tofauti kama $\sigma^2_{i,g}$ (tofauti ndani ya kikundi) na $\Delta_{i, g1, g2} = |\bar{R}_{i,g1} - \bar{R}_{i,g2}|$ (kutokubaliana kati ya vikundi) vinaweza kuhesabiwa ili kupima utata na tofauti ya mitazamo.

3.2. Mikakati ya Muunganisho na Vipimo

DICES inawezesha kulinganisha njia tofauti za muunganisho wa lebo:

  • Kura Nyingi (Msingi): $y_i^{maj} = \text{mode}(\bigcup_{g=1}^{K} R_{i,g})$
  • Muunganisho Unaozingatia Uzito wa Kijamii: $y_i^{weighted} = \sum_{g=1}^{K} w_g \cdot \bar{R}_{i,g}$, ambapo $w_g$ inaweza kuwa sawia na ukubwa wa idadi ya watu au uzito mwingine unaolenga usawa.
  • Usalama wa Chini (Uhafidhina): $y_i^{min} = \min(\bar{R}_{i,1}, ..., \bar{R}_{i,K})$ inapendelea mtazamo wa kikundi chenye usikivu zaidi.

Vipimo vipya kama Kielelezo cha Kutokubaliana cha Kijamii (DDI) au Alama ya Uendeshaji wa Vikundi Vidogo vinaweza kutolewa ili kupima jinsi utendaji wa mfano unavyotofautiana kati ya vikundi.

4. Matokeo ya Majaribio na Uvumbuzi Muhimu

Ingawa sehemu ya PDF iliyotolewa ni nakala ya awali inayochunguzwa na haina matokeo kamili, mfumo uliopendekezwa husababisha uvumbuzi kadhaa unaotarajiwa:

  • Tofauti Kubwa: Viwango vya juu vya kutokubaliana ndani ya kikundi na kati ya vikundi kwenye lebo za usalama kwa sehemu kubwa ya vipengele vya mazungumzo, kikikabili dhana ya kiwango cha ulimwengu cha usalama.
  • Uhusiano wa Kijamii: Tofauti za kimfumo katika tathmini za usalama zinaonekana kwa umri, rangi/ukabila, na jinsia kwa mada maalum au toni za mazungumzo (kwa mfano, ucheshi, uwazi, marejeleo ya kitamaduni).
  • Athari ya Muunganisho: Uchaguzi wa mkakati wa muunganisho (kura nyingi dhidi ya uzito dhidi ya chini) husababisha lebo tofauti za mwisho za usalama kwa 15-30% ya vipengele, ikiaathiri sana mazungumzo ambayo mfano ungefundishwa kuepuka au kuruhusu.
  • Pengo la Tathmini ya Mfano: Mfano unaochukuliwa kuwa "salama" na seti ya majaribio iliyounganishwa kwa kura nyingi unaweza kuonyesha viwango vya juu vya makosa (kwa mfano, +20% ya hasi/poziti bandia) inapotathminiwa dhidi ya mapendeleo ya vikundi vidogo maalum vya kijamii.

Maelezo ya Chati (Dhana): Chati yenye pande nyingi itakuwa muhimu katika kuwasilisha matokeo. Paneli A inaonyesha ramani ya joto ya alama za wastani za usalama (kiwango 1-5) kwa vipengele 100 vya mazungumzo (safu) kwa vikundi 4 vya kijamii (safu wima), ikifunua muundo wa uendeshaji na kutokubaliana. Paneli B ni chati ya baa inayolinganisha wito wa mwisho wa "salama/asiyo salama" kwa vipengele 20 visivyo wazi chini ya mikakati mitatu ya muunganisho, ikionyesha kwa macho matokeo ya uchaguzi wa muunganisho. Paneli C inaweka alama usahihi wa mfano kwa kikundi kikuu dhidi ya usahihi wake kwa kikundi kimoja cha watu wachache, na pointi nyingi zikianguka chini ya mstari wa usawa, ikionyesha tofauti za utendaji.

5. Mfumo wa Uchambuzi: Mfano wa Vitendo

Muktadha: Timu ya maendeleo inaboresha msaidizi wa AI ya mazungumzo kwa programu ya huduma kwa wateja duniani kote. Wanatumia seti ya data ya kawaida ya usalama kuchuja data ya mafunzo. Sasa wanataka kutumia DICES kukagua uendeshaji wa usalama wa mfano wao kwa msingi tofauti wa watumiaji.

Hatua za Uchambuzi:

  1. Ukaguzi wa Utendaji wa Vikundi Vidogo: Endesha mfano kwenye kauli za mazungumzo za DICES. Kusanya majibu yake yaliyotengenezwa. Pata kundi jipya la watathmini wenye utofauti wa kijamii (au tumia tathmini asili za DICES ikiwa kauli ni sawa) kutathmini usalama wa mazungumzo haya yaliyotengenezwa na mfano. Hesabu usahihi/kukumbuka/F1 kwa ugunduzi wa usalama kando kwa watathmini wa Kikundi A (kwa mfano, umri 18-30, Amerika Kaskazini) na Kikundi B (kwa mfano, umri 50+, Asia ya Kusini Mashariki).
  2. Kutambua Sehemu Zenye Kutokubaliana: Tenga mada au mitindo ya mazungumzo ambapo pengo la utendaji kati ya Kikundi A na Kikundi B ni kubwa zaidi (kwa mfano, tofauti >30% katika kiwango cha usalama kinachoonwa). Hii inaonyesha maeneo maalum ambapo uendeshaji wa usalama wa mfano sio thabiti.
  3. Kuchunguza Mikakati ya Muunganisho: Simulia ubora wa mfano kwa kutumia lebo za usalama zilizotokana na DICES kwa kutumia: a) Kura nyingi, b) Mpango wa uzito unaowakilisha zaidi idadi ya watu wa kijamii wa eneo lengwa (Kikundi B). Linganisha tabia ya mifano inayotokana. Mfumo wa DICES hutoa data ya kufanya uchaguzi huu wenye ufahamu badala ya kutumia utawala wa kura nyingi.
  4. Matokeo: Timu inagundua kuwa mfano wao wa sasa una uwezekano wa 25% zaidi wa kutoa majibu yanayoonwa kuwa "ya kusukumiza" au "asiyo salama" na watathmini wazee wa Asia ya Kusini Mashariki katika miktadha ya mazungumzo. Wanaamua kutumia kitendakazi cha hasara kinachozingatia kijamii wakati wa mzunguko ujao wa ubora ili kuboresha uendeshaji kwa sehemu hiyo muhimu ya watumiaji.

6. Matumizi ya Baadaye na Mwelekeo wa Utafiti

  • Marekebisho ya Usalama ya Kukua: Mifano inayoweza kukisia muktadha/kijamii cha mtumiaji (kwa ulinzi unaofaa wa faragha) na kurekebisha vizingiti vyake vya usalama/mazungumzo kwa wakati halisi, kwa kutumia mifumo kama DICES kama rejeleo la tofauti inayokubalika.
  • Uendeshaji wa AI Binafsi: Kupanua dhana kutoka usalama hadi sifa nyingine za kimaadili (usaidizi, ucheshi, uadilifu) kuruhusu watumiaji kurekebisha tabia ya AI ndani ya anuwai ya mapendeleo yaliyothibitishwa na jamii.
  • Uundaji wa Sera na Viwango: Kutoa taarifa kwa viwango vya tasnia na udhibiti kwa tathmini ya usalama wa AI. DICES hutoa mbinu ya kufafanua viwango vya "kutokubaliana kwa busara" na kwa kutoa agizo la tathmini za athari za vikundi vidogo, sawa na ukaguzi wa usawa katika algoriti za ajira.
  • Mafunzo ya Mfano wa Kitamaduni: Kutumia kikamilifu seti za data kama DICES kufundisha mifano ambayo inajua wazi utofauti wa mitazamo, kwa uwezekano kupitia ujifunzaji wa kazi nyingi au usanifu wa uundaji wa mapendeleo uliochochewa na ujifunzaji wa nguvu kutoka kwa maoni ya binadamu (RLHF) lakini kwa mifano mingi ya malipo maalum ya kikundi.
  • Masomo ya Muda Mrefu: Kufuatilia jinsi mitazamo ya usalama ndani na kati ya vikundi vya watu inavyobadilika kwa muda kukabiliana na mabadiliko ya kiteknolojia na kijamii, ikihitaji toleo jipya la seti ya data ya DICES.

7. Marejeo

  1. Aroyo, L., et al. (2023). DICES Dataset: Diversity in Conversational AI Evaluation for Safety. arXiv preprint arXiv:2306.11247.
  2. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.
  3. Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. Findings of the Association for Computational Linguistics: EMNLP 2020.
  4. Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
  5. Prabhakaran, V., Denton, E., Webster, K., & Conover, A. (2022). Creativity, Caution, and Collaboration: Understanding and Supporting Human-AI Co-creativity. Proceedings of the ACM on Human-Computer Interaction.
  6. Xu, J., et al. (2020). RECAST: Enabling User Recourse and Interpretability of Toxicity Detection Models with Interactive Visualization. Proceedings of the ACM on Human-Computer Interaction.

8. Uchambuzi wa Mtaalamu: Ufahamu Msingi, Mtiririko wa Mantiki, Nguvu na Udhaifu, Ufahamu Unaoweza Kutekelezwa

Ufahamu Msingi

DICES sio seti nyingine tu ya data; ni changamoto ya moja kwa moja kwa msingi wa maarifa ya tathmini kuu ya usalama wa AI. Ufahamu msingi wa karatasi hii ni kwamba "usalama" katika mazungumzo sio sifa ya maandishi ya jozi mbili, bali sifa inayotokana na mwingiliano kati ya maandishi na muktadha maalum wa binadamu. Kwa kutibu kutokubaliana kama kelele ya kufutwa, tumekuwa tukijenga mifano kwa mtumiaji wa kifikra, wastani wa takwimu ambaye hayupo. Kazi hii, pamoja na usomi muhimu kama ule wa Bender et al. (2021) kuhusu "kasuku za nasibu," inalazimisha kukiri: jitihada zetu za usalama unaoweza kupimika, wa kiotomatiki zinaweza kuwa zinafuta utofauti tunadai kulinda.

Mtiririko wa Mantiki

Hoja hii ni ya kulazimisha na ya kimfumo: 1) Kutambua Kasoro: Seti za data za sasa za usalama zinadhania ukweli mmoja, zikificha kimaadili. 2) Kupendekeza Dawa: Ili kukamata ukweli, tunahitaji data inayohifadhi tofauti na kuiunganisha na kijamii. 3) Kujenga Chombo: Kwa hivyo, DICES—na muundo wake wa makusudi wa kijamii na urejeshaji wa juu. 4) Kuonyesha Manufaa: Inawezesha uchambuzi mpya (vipimo vya msingi wa usambazaji, ulinganisho wa muunganisho) ambavyo vinafunua matokeo ya chaguzi zetu. Mantiki inahama kutoka kwa ukosoaji hadi suluhisho la ujenzi bila mpasuko.

Nguvu na Udhaifu

Nguvu: Muundo wa dhana ndio mali yake kubwa zaidi. Kuhama kutoka "kupunguza upendeleo" hadi "kupima utofauti" ni zaidi ya semantiki—ni mwelekeo wa msingi kutoka kwa mfano wa upungufu hadi mfano wa wingi. Ubunifu wa kiufundi (urejeshaji wa juu, usimbaji wa usambazaji) ni thabiti na hutumikia lengo lake la kifalsafa moja kwa moja. Hutoa kiwango cha kulinganisha kinachohitajika sana kwa uwanja mpya wa tathmini ya usalama inayojumuisha.

Kasoro na Mapungufu: Hali ya nakala ya awali inamaanisha kuwa matokeo halisi, ya kiwango kikubwa yanasubiri, na kutuacha tuamini ahadi ya mfumo. Pengo kubwa ni changamoto ya utekelezaji: Timu ya bidhaa inatumia hii vipi? Kuchagua mkakati wa muunganisho (kura nyingi, uzito, chini) sasa ni uamuzi mgumu wa kimaadili na wa bidhaa, sio wa kiufundi tu. Seti ya data pia ina hatari ya kufanya makategoria ya kijamii yanayotumika kuwa dhabiti; karatasi inakubali makutano ya sifa lakini uchambuzi bado unaweza kutibu "umri" na "rangi" kama shoka huru. Zaidi ya hayo, kama RLHF ya Ouyang et al. (2022), inategemea watathmini wa kibinadamu, ikirithi ugumu wote, gharama, na kutofautiana kwa uwezekano wa mchakato huo.

Ufahamu Unaoweza Kutekelezwa

Kwa watekelezaji na viongozi wa AI:

  1. Ukaguzi wa Haraka: Tumia mfumo wa DICES (hata kabla ya kutolewa kwa seti kamili ya data) kufanya ukaguzi wa tofauti ya vikundi vidogo kwenye vikaguzi vyako vya sasa vya usalama. Unaweza kuanza na uchunguzi mdogo wa ndani wa kijamii. Swali sio "mfano wetu ni salama?" bali "kwa nani mfano wetu ni salama, na wapi unashindwa?"
  2. Kufafanua Upya Vipimo vya Mafanikio: Toa agizo kwamba ripoti za tathmini ya usalama zijumuishe vipimo vya tofauti (kwa mfano, mkengeuko wa kawaida wa tathmini kwa sehemu muhimu za watumiaji) pamoja na usahihi wa jadi. Mfano wenye usahihi wa 95% lakini tofauti kubwa kati ya vikundi una hatari zaidi kuliko ule wenye usahihi wa 90% na tofauti ndogo.
  3. Wekeza katika Usanifu wa Uundaji wa Mapendeleo: Pita zaidi ya "mfano mmoja wa malipo" wa usalama. Chunguza mifano ya malipo yenye vichwa vingi au mitandao ya masharti ya mapendeleo ambayo inaweza kujifunza ramani kutoka (muktadha, wasifu wa mtumiaji) hadi mipaka inayofaa ya usalama, kwa kutumia seti za data kama DICES kwa mafunzo.
  4. Weka Wanafalsafa na Wanasayansi wa Jamii Katika Mzunguko: Uchaguzi wa mkakati wa muunganisho wa lebo zako za mafunzo ni uamuzi wa sera ya bidhaa wenye matokeo ya kimaadili. Uamuzi huu lazima ufanywe kwa ushirikiano, sio na wahandisi wa ML pekee wanaoboresha kipimo kimoja.

DICES inashindana kwa mafanikio kwamba kupuuza utofauti ni hatari ya kiufundi ya kuwepo. Hatua inayofuata ni kujenga mazoea ya uhandisi na usimamizi wa bidhaa ambayo yanaweza kushughulikia ugumu unaofunua.