Ufahamu wa Akili ya Kawaida kwa AI ya Mazungumzo: Uchunguzi wa Hali ya Sanaa

1. Utangulizi

Karatasi hii ya uchunguzi inashughulikia changamoto muhimu ya kujumuisha ufahamu wa akili ya kawaida katika mifumo ya kisasa ya AI ya mazungumzo. Ingawa modeli zinazotegemea mabadiliko kama BERT, GPT, na T5 zimefanikiwa sana katika kuelewa sintaksia ya lugha na semantiki ya muktadha, bado zinakabiliwa na changamoto katika kazi zinazohitaji maarifa ya akili ya kawaida—maarifa kuhusu ulimwengu ambayo wanadamu kwa kawaida huyachukulia kuwa ya kawaida. Karatasi hii inadai kuwa pengo hili linazuia sana uundaji wa mifumo ya mazungumzo ya asili na yenye mwunganisho.

Umuhimu wa akili ya kawaida kwa akili ya mashine umekuwa ukijulikana kwa muda mrefu, lakini mpango wa kawaida wa kuandaa na kujumuisha maarifa haya bado haujapatikana. Uchunguzi huu unalenga makutano ya ufahamu wa akili ya kawaida na AI ya mazungumzo, ukikagua seti za data, mbinu, na viwango vya tathmini vinavyohusika.

2. Ufahamu wa Akili ya Kawaida katika Matatizo ya AI ya Mazungumzo

Ufahamu wa akili ya kawaida ni muhimu katika nyanja mbalimbali za AI ya mazungumzo. Karatasi hii inabainisha maeneo kadhaa muhimu ya matatizo ambapo ukosefu wake unaonekana wazi zaidi.

2.1 Uelewa wa Mazungumzo

Modeli lazima zikadirie nia zisizosemwa, zitatue utata, na zielewe muktadha usio wazi. Kwa mfano, kuelewa kuwa "Ninaenda dukani kwa mbio" kunamaanisha njia ya usafiri na nia ya kununua, sio tu harakati ya kimwili.

2.2 Uundaji wa Majibu

Kutoa majibu yenye mwunganisho, yanayohusika, na yanayofaa kijamii kunahitaji ujuzi wa kanuni za kijamii, sheria za kimwili, na tabia ya kawaida ya binadamu. Modeli isiyo na akili ya kawaida inaweza kutoa majibu yasiyowezekana kimwili au yasiyofaa kijamii.

2.3 Mazungumzo Yanayolenga Kazi

Kusaidia watumiaji kwa kazi (k.m., kukusanya usafiri, kutatua matatizo) kunahitaji kufikiri juu ya mlolongo wa vitendo, uhusiano wa sababu na athari, na sifa za vitu ulimwenguni.

3. Mbinu za Kujumuisha Akili ya Kawaida

Uchunguzi huu unagawanya njia kuu katika mikakati mitatu kuu ya kujumuisha akili ya kawaida katika modeli za AI ya mazungumzo.

3.1 Usahihishaji wa Modeli

Njia hii inahusisha kufundisha zaidi (kusahihisha) modeli kubwa za lugha zilizofundishwa awali kwenye seti za data zilizokusanywa mahsusi kwa ajili ya kazi za ufahamu wa akili ya kawaida. Seti za data kama SocialIQA, CommonsenseQA, na PIQA hutumiwa kubadilisha modeli ili zifikirie kuhusu mwingiliano wa kijamii, sifa za dhana, na uelewa wa kimwili.

3.2 Utegemezi wa Grafu ya Maarifa

Njia hii inajumuisha wazi vyanzo vya maarifa ya nje vilivyopangwa. Karatasi hii inasisitiza grafu mbili muhimu za maarifa (KG):

ConceptNet: Mtandao wa semantiki unao na maarifa ya jumla ya ulimwengu kuhusu maneno na misemo.
ATOMIC: Grafu ya maarifa inayolenga maarifa ya kukisia kuhusu matukio ya kila siku, ikikamata uhusiano wa "ikiwa-basi" kuhusu sababu, athari, na hali ya akili ya washiriki.

Modeli zimeundwa kuchukua na kufikiri juu ya habari kutoka kwa grafu hizi za maarifa wakati wa usindikaji wa mazungumzo. Modeli ya COMET, mtandao wa neva unaotegemea mabadiliko uliofundishwa kwenye ConceptNet na ATOMIC, imetajwa kama mfano muhimu unaoweza kutoa makisio mapya ya akili ya kawaida.

3.3 Maelezo ya Lugha ya Asili

Njia inayoibuka inahusisha kufundisha modeli sio tu kutoa jibu bali pia kutoa maelezo ya lugha asili yanayothibitisha jibu kwa kutumia akili ya kawaida. Hii inalenga kufanya mchakato wa kufikiri wa modeli uwe wazi zaidi na uwezekano wa kuwa imara zaidi.

4. Viwango vya Kulinganisha na Vipimo vya Tathmini

Tathmini ya ufahamu wa akili ya kawaida katika mazungumzo ni ngumu. Karatasi hii inajadili viwango kadhaa vya kulinganisha:

Viwango vya Kulinganisha Vilivyolenga Kazi: Seti za data maalum za kutathmini ujuzi maalum wa kufikiri (k.m., ufahamu wa kimwili katika PIQA, ufahamu wa kijamii katika SocialIQA).
Viwango vya Kulinganisha vya Mazungumzo Vilivyojumuishwa: Tathmini ndani ya kazi pana za mazungumzo, kama seti ya data ya Mazungumzo ya Akili ya Kawaida ambayo inajaribu ikiwa majibu ya modeli yanapatana na ukweli wa akili ya kawaida.
Tathmini ya Kibinadamu: Hatimaye, uhalisi na mwunganisho wa mazungumzo, yaliyohukumiwa na wanadamu, bado ni kipimo muhimu, ingawa cha kibinafsi.

Vipimo vya kawaida vya moja kwa moja vinajumuisha usahihi wa maswali ya chaguo nyingi, BLEU/ROUGE kwa ubora wa majibu, na vipimo vipya vilivyoundwa kupima uthabiti wa ukweli au uwezekano wa kufikiri.

5. Uchunguzi wa Awali kuhusu Modeli za SOTA

Karatasi hii inawasilisha uchambuzi wa awali wa modeli mbili kuu za mazungumzo wazi: BlenderBot 3 na LaMDA. Licha ya uwezo wao wa hali ya juu, modeli zote mbili zinaonyesha kushindwa kwa kiasi kikubwa katika ufahamu wa akili ya kawaida. Mifano inajumuisha:

Kutoa majibu yanayokiuka sheria za msingi za kimwili (k.m., kupendekeza kuwa kitu kinaweza kuwa katika maeneo mawili kwa wakati mmoja).
Kushindwa kuelewa ishara za kijamii zisizosemwa au kanuni.
Kutoa taarifa zisizoendana na ukweli ndani ya zamu moja ya mazungumzo.

Uchunguzi huu unahimiza sana hitaji la utafiti unaolenga eneo hili, kwani kushindwa kama huko kunaharibu moja kwa moja imani ya mtumiaji na uhalisi unaoonwa wa mwingiliano.

Ufahamu Muhimu

Hata modeli za hali ya juu zaidi za mazungumzo (BlenderBot3, LaMDA) zinaonyesha mapungufu muhimu katika akili ya kawaida, ikionyesha hili kama mpaka wa msingi, sio changamoto ya pembeni.

6. Maelezo ya Kiufundi na Muundo wa Hisabati

Ujumuishaji wa grafu za maarifa mara nyingi unahusisha mfumo wa uundaji ulioimarishwa na uchukuaji. Kwa kuzingatia muktadha wa mazungumzo $C$ na grafu ya maarifa $\mathcal{K}$, lengo la modeli linaweza kuwekwa kama kutoa majibu $R$ ambayo yanakuza:

$P(R | C, \mathcal{K}) = \sum_{k \in \mathcal{K}_C} P(k | C) \cdot P(R | C, k)$

Ambapo $\mathcal{K}_C$ ni sehemu ndogo ya tatu muhimu za maarifa zilizochukuliwa kutoka $\mathcal{K}$ kulingana na muktadha $C$. Neno $P(k | C)$ linawakilisha uwezekano wa modeli ya kuchukua wa kuchagua tatu ya maarifa $k$, na $P(R | C, k)$ ni uwezekano wa majibu kwa kuzingatia muktadha na maarifa yaliyochaguliwa. Modeli kama COMET zinatekeleza hili kwa kusahihisha mabadiliko (k.m., GPT-2) kwenye tatu za grafu ya maarifa zilizopangwa kama $(kichwa, uhusiano, mkia)$, ikiruhusu kutoa ukamilishaji unaowezekana wa $mkia$ kwa maswali mapya ya $(kichwa, uhusiano)$.

7. Mfumo wa Uchambuzi: Mfano wa Utafiti

Muktadha: Kutathmini uelewa wa kiboti cha mazungumzo kuhusu simulizi rahisi.

Ingizo la Mtumiaji: "Nilijikunywelea glasi ya maji ya machungwa, lakini kisha simu ililia. Niliporudi, glasi ilikuwa tupu."

Mfumo wa Uchambuzi:

Uchukuaji wa Maarifa: Mfumo unapaswa kuchukua ukweli muhimu wa akili ya kawaida: Maji yanaweza kunywa. Wanyama kipenzi (kama paka) wanaweza kunywa maji. Watu hujibu simu.
Uundaji wa Makisio: Kwa kutumia modeli kama COMET, toa makisio yanayowezekana kwa tukio "glasi ya maji ya machungwa iliyoachwa bila usimamizi": "Ikiwa X anaacha kinywaji bila usimamizi, basi mnyama kipenzi anaweza kikinywa" (uhusiano wa ATOMIC: xEffect).
Upimaji wa Dhana: Tathmini ni maelezo gani yaliyokisiwa ("mtu alikinywa", "yameevapo", "mnyama kipenzi alikinywa") yanafaa zaidi muktadha na uwezekano wa kimwili. Makisio sahihi yanategemea maarifa yasiyosemwa ya ulimwengu kuhusu matukio ya kawaida ya nyumbani.
Uundaji wa Majibu: Toa swali la kufuata lenye mwunganisho au taarifa: "Lo, paka wako alifikia?" dhidi ya moja isiyowezekana: "Ilibadilika kuwa gesi?"

Mfumo huu unaangazia kufikiri kwa hatua nyingi kinachohitajika, kuanzia uchukuaji hadi makisio hadi ujumuishaji wa muktadha.

8. Matumizi ya Baadaye na Mwelekeo wa Utafiti

Njia ya mbele kwa AI ya mazungumzo inayotambua akili ya kawaida inahusisha mwelekeo kadhaa muhimu:

Akili ya Kawaida ya Njia Nyingi: Kujumuisha maarifa ya kuona, kusikia, na hisi na lugha, kama ilivyoanzishwa na modeli kama CLIP na DALL-E ya OpenAI, ambazo zinahusisha maandishi na dhana za kuona. Wawakilishi wa mazungumzo wa baadaye wanaweza kuhitaji kufikiri kuhusu mandhari yaliyoelezewa katika mazungumzo.
Grafu za Maarifa Zenye Mabadiliko: Kuondoka zaidi ya grafu za maarifa zisizobadilika hadi mifumo inayoweza kujifunza na kusasisha maarifa ya akili ya kawaida kila wakati kutoka kwa mwingiliano, sawa na jinsi wanadamu wanavyofanya.
Ufahamu wa Sababu na Athari: Kuzamisha uelewa wa modeli kuhusu sababu na athari, sehemu kuu ya akili ya kawaida. Utafiti kutoka kwa safu ya sababu ya Judea Pearl unapendekeza kuhamia kutoka kwa ushirikiano hadi kuingilia kati na kufikiri kwa kinyume ni muhimu kwa AI imara.
Akili ya Kawaida ya Kibinafsi na Kitamaduni: Kuunda modeli zinazoelewa kanuni za akili ya kawaida ambazo hutofautiana kati ya watu binafsi, jamii, na tamaduni.
Ujumuishaji wa Neva na Ishara: Kuchanganya nguvu ya kutambua muundo ya mitandao ya neva (kama mabadiliko) na uwezo wa wazi, wa kimantiki wa kufikiri wa mifumo ya AI ya ishara. Njia hii mseto, kama ilivyochunguzwa na modeli za Probabilistic Symbolic (PS) za MIT, ni njia yenye matumaini ya ufahamu wa akili ya kawaida unaoweza kufuatiliwa na kufafanuliwa.

9. Marejeo

Richardson, C., & Heck, L. (2023). Ufahamu wa Akili ya Kawaida kwa AI ya Mazungumzo: Uchunguzi wa Hali ya Sanaa. Warsha ya Mbinu Zilizoinuliwa na Maarifa kwa NLP, AAAI 2023.
Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: Grafu ya Wazi ya Lugha Nyingi ya Maarifa ya Jumla. Matukio ya AAAI.
Sap, M., et al. (2019). ATOMIC: Atlasi ya Akili ya Kawaida ya Mashine kwa Kufikiri ya Ikiwa-Basi. Matukio ya AAAI.
Bosselut, A., et al. (2019). COMET: Mabadiliko ya Akili ya Kawaida kwa Uundaji wa Moja kwa Moja wa Grafu ya Maarifa. Matukio ya ACL.
Gao, J., et al. (2018). Njia za Neva kwa AI ya Mazungumzo. Msingi na Mielekeo® katika Uchukuaji wa Habari.
Pearl, J., & Mackenzie, D. (2018). Kitabu cha Kwa Nini: Sayansi Mpya ya Sababu na Athari. Vitabu vya Msingi.
Radford, A., et al. (2021). Kujifunza Modeli za Kuona Zinazohamishika Kutoka kwa Usimamizi wa Lugha Asili. Matukio ya ICML (CLIP).

Mtazamo wa Mchambuzi: Pengo la Akili ya Kawaida

Ufahamu wa Msingi: Uchunguzi wa Richardson na Heck unafunua ukweli wa msingi, lakini mara nyingi usioelezwa, katika AI ya kisasa: modeli zetu za kisasa zaidi za lugha ni wapatanishi bora wa muundo wanaofanya kazi katika utupu wa maana. Wamejua "jinsi" ya lugha lakini hawana "kwa nini"—modeli ya msingi ya ulimwengu inayothibitisha maana. Hii sio hitilafu ndogo ya kiufundi; ni kasoro ya usanifu inayopunguza matumizi ya AI na kuaminika katika matumizi ya ulimwengu halisi. Kama wanaandika wanasema, hata modeli maarufu kama LaMDA na BlenderBot3 zinashindwa kwenye kazi rahisi za kufikiri za kibinadamu, pengo linaloakisi mapungufu yaliyozingatiwa katika nyanja zingine za AI, kama modeli za maono ya kompyuta ambazo hazina uelewa wa kimwili licha ya ujuzi wao wa kutambua.

Mtiririko wa Kimantiki na Nguvu na Kasoro: Nguvu ya karatasi hii iko katika tasnifu yake wazi—kugawa njia katika Usahihishaji, Utegemezi wa KG, na Maelezo. Mfumo huu unatenganisha kwa manufaa mazingira ya utafiti yasiyo na mpangilio. Msisitizo kwenye Grafu za Maarifa kama ConceptNet na ATOMIC ni sahihi; zinawakilisha jaribio la dhahiri zaidi la kufunga umeme wa akili ya kawaida. Hata hivyo, uchunguzi pia unaangazia bila kukusudia udhaifu kuu wa uwanja huu: kutegemea besi za maarifa dhaifu, zisizobadilika, na zinazokosa ukamilifu. ConceptNet, ingawa ni ya thamani, ni picha ya ukweli wa makubaliano, ikikosa hali ya mabadiliko, muktadha, na mara nyingi ya kupingana ya maarifa ya ulimwengu halisi. Njia ya modeli ya COMET ya kutoa maarifa ni njia ya kujanja, lakini ina hatari ya kupotosha "ukweli" unaosikika kuwa unawezekana, ikibadilisha tatizo moja na lingine. Majadiliano ya viwango vya kulinganisha yanaonyesha zaidi tatizo la meta: hatuna vipimo vya nguvu, vya moja kwa moja vya kutathmini kina cha kufikiri, mara nyingi tukirudi kwenye usahihi wa chaguo nyingi au alama za usawa za juu, ambazo ni viwakilishi vibaya vya uelewa wa kweli.

Ufahamu Unaotekelezeka: Njia ya mbele sio tu kuongeza ukubwa wa mifumo iliyopo. Kwanza, uwanja lazima upendelee kufikiri kwa sababu na kinyume, kuondoka zaidi ya uhusiano. Kama kazi ya Judea Pearl inavyodai, kuelewa "ikiwa" na "kwa nini" ndio msingi wa akili imara. Pili, tunahitaji mabadiliko kuelekea ujumuishaji wa neva na ishara. Njia safi za neva zinahitaji data nyingi na hazifahamiki; mifumo safi ya ishara ni dhaifu. Modeli mseto, ambazo zinatumia mitandao ya neva kwa kutambua na kufananisha muundo pamoja na injini za ishara kwa kukataa kimantiki, zinatoa njia yenye matumaini, ingawa yenye changamoto ya kihesabu. Taasisi kama CSAIL ya MIT zinafanya maendeleo hapa. Hatimaye, tathmini lazima ibadilike. Tunahitaji viwango vya kulinganisha vinavyojaribu mnyororo wa kufikiri, vinavyohitaji uthibitisho, na vinavyoadhibu utata, kuondoka zaidi ya kazi za zamu moja hadi simulizi za mazungumzo zenye hatua nyingi zinazofunua kutopatana kwa kimantiki. Mustakabali wa AI ya mazungumzo sio tu juu ya mazungumzo bora; ni juu ya kujenga mashine zinazoshiriki uelewa wetu wa ulimwengu, lengo ambalo bado liko mbali lakini sasa limefafanuliwa wazi zaidi shukrani kwa uchunguzi kama huu.