1. Utangulizi
Kuenea kwa mifumo ya AI ya mazungumzo iliyojengwa kwenye Mfano wa Lugha Kubwa (LLMs) kumeifanya tathmini ya usalama kuwa jambo muhimu sana. Njia za jadi mara nyingi hutegemea seti za takwimu zenye utenganishaji wazi wa maudhui "salama" na "yasiyo salama", ambayo kimsingi hurahisisha kupita kiasi hali ya kimaadili na kitamaduni ya usalama. Seti ya takwimu ya DICES (Utofauti katika Tathmini ya AI ya Mazungumzo kwa Usalama), iliyoanzishwa na watafiti kutoka Google Research, Chuo Kikuu cha London, na Chuo Kikuu cha Cambridge, inashughulikia pengo hili kwa kutoa rasilimali inayokamata tofauti ya asili, utata, na utofauti wa mitazamo ya binadamu kuhusu usalama wa AI.
DICES imeundwa kwa kanuni tatu kuu: 1) kujumuisha habari ya kina ya kidemografia kuhusu wakadiriaji (mfano, kikundi cha rangi/kabila, umri, jinsia), 2) kurudia mara nyingi kwa kila kipengele cha mazungumzo ili kuhakikisha nguvu ya kitakwimu, na 3) kuweka kura za wakadiriaji kama usambazaji kwa vikundi vya kidemografia ili kuwezesha uchunguzi wa mikakati tofauti ya muunganisho. Ubunifu huu unapita zaidi ya "ukweli mmoja wa msingi" na badala yake huchukulia usalama kama muundo mwenye pande nyingi, unaotegemea idadi ya watu.
1.1. Michango
Michango mikuu ya seti ya takwimu ya DICES na utafiti unaofuatana ni:
- Utofauti wa Wakadiriaji kama Kipengele cha Msingi: Kuhama mwelekeo kutoka kwa kupunguza "upendeleo" hadi kukubali na kuchambua "utofauti" katika maoni ya wakadiriaji.
- Mfumo wa Uchambuzi wa Kina: Kutoa muundo wa seti ya takwimu unaoruhusu uchunguzi wa kina wa jinsi mitazamo ya usalama inavyokatiza na kategoria za kidemografia.
- Kigezo cha Tathmini ya Kina: Kuanzisha DICES kama rasilimali ya pamoja ya kutathmini mifumo ya AI ya mazungumzo kwa njia inayoheshimu mitazamo tofauti, ikipita zaidi ya alama moja ya usalama.
2. Uelewa wa Msingi & Mtiririko wa Mantiki
Uelewa wa Msingi: Kasoro ya msingi katika tathmini kuu ya usalama wa AI sio ukosefu wa data, bali ukosefu wa data inayowakilisha na iliyotenganishwa. Kuchukulia usalama kama kazi ya uainishaji wa lengo, wa tarakimu mbili ni urahisishaji hatari unaofuta ufafanuzi wa kitamaduli na unaweza kusababisha mifumo ambayo ni "salama" kwa kundi moja tu lenye ushawishi. DICES inatambua kwa usahihi kwamba usalama ni muundo wa kijamii, na tathmini yake lazima iwe ya kitakwimu, sio ya uthibitishaji.
Mtiririko wa Mantiki: Hoja ya karatasi hii ni wazi kabisa: 1) Usafiri wa usalama wa LLM wa sasa unategemea seti za takwimu zilizorahisishwa. 2) Urahisishaji huu hauzingatii tofauti ya kimaadili, ambayo ni tatizo hasa kwa usalama—dhana iliyoko katika muktadha wa kijamii. 3) Kwa hivyo, tunahitaji aina mpya ya seti ya takwimu inayokamata tofauti hii wazi kupitia utofauti wa kidemografia na urudiaji wa juu wa wakadiriaji. 4) DICES inatoa hii, ikirahisisha uchambuzi unaofunua vikundi gani vinapata maudhui gani yasiyo salama na kwa kiwango gani. Mtiririko huu wa mantiki unavunja hadithi za uwongo za kiwango cha ulimwengu cha usalama na kuubadilisha na mfumo wa kuelewa mandhari ya usalama.
3. Nguvu na Mapungufu
Nguvu:
- Ubunifu Unaobadilisha Mfumo: Kuhama kutoka kwa lebo za tarakimu mbili hadi usambazaji wa kidemografia ndio kipengele chake kikuu. Inalazimisha uwanja huu kukabiliana na wingi wa usalama.
- Uadilifu wa Kitakwimu: Kurudia mara nyingi kwa kila kipengele hakubalianiki kwa uchambuzi wa maana wa kidemografia, na DICES inafanikiwa kwa hili. Inatoa nguvu ya kitakwimu inayohitajika kupita zaidi ya hadithi.
- Inaweza Kutekelezwa kwa Uundaji wa Mfano: Haina kugundua tatizo tu; inatoa muundo (usambazaji) ambao unaweza kuongoza moja kwa moja usafiri wa kina zaidi na vipimo vya tathmini, sawa na jinsi upimaji wa kutokuwa na uhakika ulivyoboresha usawazishaji wa mfano.
Mapungufu & Maswali Yaliyo Wazi:
- "Mfereji wa Kidemografia": Ingawa inajumuisha demografia kuu, uchaguzi wa kategoria (rangi, umri, jinsia) ni hatua ya kuanzia. Inakosa mwingiliano (mfano, wanawake Weusi wachanga) na mihimili mingine kama hali ya kijamii na kiuchumi, ulemavu, au jiografia ya kitamaduni, ambayo ni muhimu sawa kwa picha kamili.
- Changamoto ya Utekelezaji: Karatasi hii haijaelezea vizuri jinsi. Kwa usahihi, mtaalamu anayetengeneza mfano anapaswa kutumiaje usambazaji huu? Je, unasafiri mfano kwa wastani? Kwa modi? Au kutengeneza mfano unaoweza kubadilisha kichujio chake cha usalama kulingana na demografia ya mtumiaji inayokisiwa? Hatua kutoka kwa data tajiri hadi mazoezi ya uhandisi ndio hatua inayofuata ya kupanda.
- Picha ya Kukaa: Kanuni za kijamii kuhusu usalama zinabadilika. Seti ya takwimu, haijalishi inavyokuwa tofauti, ni picha ya kukaa. Mfumo hauna njia wazi ya kusasisha kwa mwendelezo na kwa nguvu mitazamo hii ya usalama, changamoto inayokabiliwa pia na seti nyingine za takwimu za kimaadili zilizokaa.
4. Uelewa Unaoweza Kutekelezwa
Kwa wataalamu wa AI na viongozi wa bidhaa:
- Ukaguzi wa Haraka: Tumia mfumo wa DICES (usambazaji, sio wastani) kukagua viainishi vyako vya usalama vya sasa. Utaona kwa uwezekano mkubwa kwamba vinalingana na kipande chembamba cha kidemografia. Hii ni hatari ya sifa na bidhaa.
- Fafanua Upya Kigezo Chako: Acha kuripoti "alama moja ya usalama". Ripoti wasifu wa usalama: "Matokeo ya mfano huu yanalingana na mitazamo ya usalama ya Kundi A kwa makubaliano ya X% na yanatofautiana na Kundi B kwenye mada Y na Z." Uwazi hujenga uaminifu.
- Wekeza katika Usalama Unaobadilika: Lengo si mfano mmoja salama kamili, bali miundo inayoweza kuelewa muktadha, ikijumuisha muktadha wa mtumiaji. Uwekezaji wa utafiti unapaswa kubadilika kutoka kwa vichujio vya usalama vilivyojumuishwa hadi kwenye taratibu za usalama zinazozingatia muktadha na zinazoweza kubinafsishwa kwa mtumiaji, kuhakikisha tabia ya mfano inafaa kwa hadhira yake. Kazi ya usawazishaji wa thamani katika maadili ya AI, kama inavyojadiliwa na Taasisi ya Stanford ya AI Iliyolenga Binadamu (HAI), inasisitiza kwamba usawazishaji lazima uwe na wingi wa maadili ya kibinadamu, sio seti moja.
5. Mfumo wa Kiufundi & Ubunifu wa Seti ya Takwimu
Seti ya takwimu ya DICES imejengwa karibu na mazungumzo ya binadamu-bot ambayo yamekadiriwa usalama na kundi kubwa la wakadiriaji walio na safu za kidemografia. Uvumbuzi mkuu ni muundo wa data: badala ya kuhifadhi lebo moja (mfano, "yasiyo salama"), kila kipengele cha mazungumzo kinahusishwa na safu ya pande nyingi ya makadirio yaliyogawanywa kwa vikundi vya kidemografia.
Kwa mazungumzo fulani $c_i$, seti ya takwimu haitoi $label(c_i) \in \{0, 1\}$. Badala yake, inatoa seti ya majibu ya wakadiriaji $R_i = \{r_{i,1}, r_{i,2}, ..., r_{i,N}\}$, ambapo kila jibu $r_{i,j}$ ni tuple $(v_{i,j}, d_{i,j})$. Hapa, $v_{i,j}$ ni hukumu ya usalama (mfano, kwa kiwango cha Likert au tarakimu mbili), na $d_{i,j}$ ni vekta inayoweka sifa za kidemografia za mkadiriaji (mfano, $d_{i,j} = [\text{jinsia}=G1, \text{umri}=A2, \text{kabila}=E3]$).
5.1. Uwakilishi wa Kihisabati wa Usambazaji wa Wakadiriaji
Nguvu kuu ya uchambuzi inatokana na kukusanya makadirio haya ya kibinafsi kuwa usambazaji. Kwa kipande maalum cha kidemografia $D_k$ (mfano, "Masia, 30-39, Mwanamke"), tunaweza kuhesabu usambazaji wa alama za usalama kwa mazungumzo $c_i$:
$P(\text{alama} = s | c_i, D_k) = \frac{|\{r \in R_i : v(r)=s \land d(r) \in D_k\}|}{|\{r \in R_i : d(r) \in D_k\}|}$
Hii inaruhusu hesabu sio tu ya wastani wa alama ya usalama $\mu_{i,k}$, bali muhimu zaidi, vipimo vya tofauti ($\sigma^2_{i,k}$), utata (mfano, entropy ya usambazaji $H(P)$), na tofauti kati ya vikundi vya kidemografia (mfano, tofauti ya KL $D_{KL}(P_{i,k} || P_{i,l})$). Uwakilishi huu wa kihisabati ni muhimu sana kwa kupita zaidi ya wastani uliorahisishwa.
6. Matokeo ya Utafiti & Maelezo ya Chati
Ingawa sehemu ya PDF iliyotolewa ni nakala ya awali inayokaguliwa na haina matokeo kamili ya utafiti, seti ya takwimu iliyoelezewa inawezesha uchambuzi kadhaa muhimu ambao kwa kawaida unawasilishwa kwenye chati:
- Chati 1: Ramani ya Joto ya Kutokubaliana kwa Kidemografia: Uonyeshaji wa matriki unaonyesha tofauti ya jozi (mfano, umbali wa Jensen-Shannon) katika usambazaji wa alama za usalama kati ya vikundi tofauti vya kidemografia (mfano, Kundi A: Mzungu Mwanaume 50+ dhidi ya Kundi B: Mhispania Mwanamke 18-29) kwenye sampuli ya mada za mazungumzo zenye utata. Chati hii ingeonyesha wazi mahali ambapo mitazamo inatofautiana zaidi.
- Chati 2: Wimbilio la Utata dhidi ya Makubaliano: Kuweka kila kipengele cha mazungumzo kulingana na wastani wa alama yake ya usalama (mhimili-x) na entropy ya usambazaji wake wa jumla wa makadirio (mhimili-y). Hii ingetenganisha vipengele vinavyoonwa kwa ulimwengu wote kuwa salama/visiyo salama (entropy ya chini, makubaliano ya juu) na vile vilivyo na utata mkubwa (entropy ya juu).
- Chati 3: Chati ya Miguu ya Utenganishaji wa Utendaji wa Mfano: Kulinganisha utendaji (mfano, alama ya F1) wa kiainishi cha kawaida cha usalama wakati unakadiriwa dhidi ya "ukweli wa msingi" uliofafanuliwa na vikundi tofauti vya kidemografia. Kupungua kwa utendaji kwa vikundi fulani kungeonyesha usawazishaji wa mfano umepotoka.
Nguvu ya DICES ni kwamba inazalisha data inayohitajika kuunda chati hizi, ikihamisha tathmini kutoka kwa nambari moja hadi dashibodi yenye pande nyingi.
7. Mfumo wa Uchambuzi: Mfano wa Utafiti wa Kesi
Muktadha: AI ya mazungumzo inazalisha utani kwa kujibu ombi la mtumiaji. Data ya mafunzo na tathmini ya kawaida ya usalama inaiweka lebo kama "salama" (utani).
Uchambuzi Unaotegemea DICES:
- Upatikanaji wa Data: Tafuta seti ya takwimu ya DICES kwa vipengele sawa vya mazungumzo vinavyohusisha utani au utani kwenye mada zinazohusiana.
- Uchambuzi wa Usambazaji: Chunguza usambazaji wa makadirio ya usalama. Unaweza kupata:
- $P(\text{yasiyo salama} | \text{umri}=18-29) = 0.15$
- $P(\text{yasiyo salama} | \text{umri}=60+) = 0.65$
- $P(\text{yasiyo salama} | \text{kabila}=E1) = 0.20$
- $P(\text{yasiyo salama} | \text{kabila}=E2) = 0.55$
- Ufafanuzi: "Usalama" wa utani huu sio ukweli bali ni kazi ya demografia. Matokeo ya mfano, ingawa yanafuata kanuni pana ya "usalama", yana hatari kubwa ya kuonekana kuwa ya kukera na watu wazima wakongwe na wanachama wa kikundi cha kabila E2.
- Hatua: Njia iliyorahisishwa ingekuwa kuzuia utani wote. Njia ya kina, iliyoelekezwa na DICES, inaweza kuwa: a) Kuweka alama aina hii ya maudhui kama "tofauti kubwa ya kidemografia," b) Kutengeneza moduli ya muktadha ya mtumiaji inayoruhusu mfano kubadilisha mtindo wake wa utani, au c) Kutoa kidokezo cha uwazi: "Jibu hili linatumia utani. Mitazamo ya utani hutofautiana sana kati ya tamaduni na vikundi vya umri."
Utafiti huu wa kesi unaonyesha jinsi DICES inavyobadilisha swali kutoka "Je, hii ni salama?" hadi "Salama kwa nani, na chini ya hali gani?"
8. Matumizi ya Baadaye & Mwelekeo wa Utafiti
Mfumo wa DICES unafungua njia kadhaa muhimu za kazi za baadaye:
- Miundo ya Usalama Iliyobinafsishwa & Inayobadilika: Hatua ya mantiki si kichujio cha usalama kinachofaa kwa wote, bali miundo inayoweza kukisia muktadha unaofaa wa mtumiaji (kwa ulinzi unaofaa wa faragha) na kubadilisha viwango vyake vya usalama au mikakati ya uzalishaji wa maudhui ipasavyo. Hii inalingana na mwelekeo mpana zaidi katika ML kuelekea ubinafsishaji, kama inavyoonekana katika mifumo ya mapendekezo.
- Tathmini ya Nguvu na ya Mwendelezo: Kukuza njia za kusasisha kwa mwendelezo seti za takwimu za mitazamo ya usalama kama DICES kwa wakati wa karibu, kukamata kanuni zinazobadilika za kijamii na mabishano yanayojitokeza, sawa na jinsi miundo ya lugha yenyewe inavyosasishwa kwa mwendelezo.
- Zana za Uchambuzi wa Mwingiliano: Kupanua mfumo wa kidemografia ili kukamata vyema utambulisho wa mwingiliano, kuhama zaidi ya kategoria huru ili kuelewa uzoefu uliojumuishwa wa watu binafsi walio wa vikundi vingi vya wachache.
- Ujumuishaji na Ujifunzaji wa Nguvu kutoka kwa Maoni ya Kibinadamu (RLHF): Kutumia maoni yaliyotenganishwa ya kibinadamu kutoka kwa seti za takwimu kama DICES kufunza miundo ya malipo ambayo ni nyeti kwa usawazishaji wa kidemografia, kuzuia uboreshaji wa dhana moja, inayoweza kuwa nyembamba, ya mazungumzo "mazuri" au "salama". Hii inashughulikia kikomo kinachojulikana katika RLHF ya kawaida, kama ilivyoelezwa katika utafiti kutoka Anthropic na DeepMind kuhusu usimamizi unaoweza kuongezeka.
- Upanuzi wa Kimataifa: Kuongeza ukusanyaji wa data hadi kiwango cha kimataifa cha kweli, kujumuisha tamaduni na lugha zisizo za Magharibi, ili kupambana na upendeleo unaozingatia Uingereza ulioenea katika rasilimali nyingi za usalama wa AI.
9. Marejeo
- Aroyo, L., Taylor, A. S., Díaz, M., Homan, C. M., Parrish, A., Serapio-García, G., Prabhakaran, V., & Wang, D. (2023). Seti ya Takwimu ya DICES: Utofauti katika Tathmini ya AI ya Mazungumzo kwa Usalama. Nakala ya awali ya arXiv arXiv:2306.11247.
- Bommasani, R., et al. (2021). Kuhusu Fursa na Hatari za Miundo ya Msingi. Kituo cha Stanford cha Utafiti kuhusu Miundo ya Msingi (CRFM).
- Gehman, S., Gururangan, S., Sap, M., Choi, Y., & Smith, N. A. (2020). RealToxicityPrompts: Kutathmini Uharibifu wa Sumu wa Neural katika Miundo ya Lugha. Michango ya Mkutano wa 2020 wa Mbinu za Kimajaribio katika Usindikaji wa Lugha ya Asili (EMNLP).
- Ouyang, L., et al. (2022). Kufunza miundo ya lugha kufuata maagizo kwa maoni ya kibinadamu. Maendeleo katika Mifumo ya Usindikaji wa Taarifa za Neural (NeurIPS).
- Taasisi ya Stanford ya AI Iliyolenga Binadamu (HAI). (2023). Ripoti ya Fahirisi ya AI 2023. Chuo Kikuu cha Stanford.
- Weidinger, L., et al. (2021). Hatari za kimaadili na za kijamii za madhara kutoka kwa miundo ya lugha. Nakala ya awali ya arXiv arXiv:2112.04359.
- Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Tafsiri ya Picha hadi Picha Isiyo na Jozi kwa kutumia Mtandao wa Adversarial Thabiti wa Mzunguko. Michango ya Mkutano wa Kimataifa wa IEEE wa Kompyuta Vision (ICCV). (Iliyotajwa kama mfano wa mfumo—CycleGAN—unaoshughulikia data isiyo na jozi, yenye hali nyingi, sawa na DICES inavyoshughulikia hukumu tofauti za kibinadamu zisizolingana).