2.1 Uelewa wa Mazungumzo
Modeli lazima zikadirie nia zisizosemwa, zitatue utata, na zielewe muktadha usio wazi. Kwa mfano, kuelewa kuwa "Ninaenda dukani kwa mbio" kunamaanisha njia ya usafiri na nia ya kununua, sio tu harakati ya kimwili.
Karatasi hii ya uchunguzi inashughulikia changamoto muhimu ya kujumuisha ufahamu wa akili ya kawaida katika mifumo ya kisasa ya AI ya mazungumzo. Ingawa modeli zinazotegemea mabadiliko kama BERT, GPT, na T5 zimefanikiwa sana katika kuelewa sintaksia ya lugha na semantiki ya muktadha, bado zinakabiliwa na changamoto katika kazi zinazohitaji maarifa ya akili ya kawaida—maarifa kuhusu ulimwengu ambayo wanadamu kwa kawaida huyachukulia kuwa ya kawaida. Karatasi hii inadai kuwa pengo hili linazuia sana uundaji wa mifumo ya mazungumzo ya asili na yenye mwunganisho.
Umuhimu wa akili ya kawaida kwa akili ya mashine umekuwa ukijulikana kwa muda mrefu, lakini mpango wa kawaida wa kuandaa na kujumuisha maarifa haya bado haujapatikana. Uchunguzi huu unalenga makutano ya ufahamu wa akili ya kawaida na AI ya mazungumzo, ukikagua seti za data, mbinu, na viwango vya tathmini vinavyohusika.
Ufahamu wa akili ya kawaida ni muhimu katika nyanja mbalimbali za AI ya mazungumzo. Karatasi hii inabainisha maeneo kadhaa muhimu ya matatizo ambapo ukosefu wake unaonekana wazi zaidi.
Modeli lazima zikadirie nia zisizosemwa, zitatue utata, na zielewe muktadha usio wazi. Kwa mfano, kuelewa kuwa "Ninaenda dukani kwa mbio" kunamaanisha njia ya usafiri na nia ya kununua, sio tu harakati ya kimwili.
Kutoa majibu yenye mwunganisho, yanayohusika, na yanayofaa kijamii kunahitaji ujuzi wa kanuni za kijamii, sheria za kimwili, na tabia ya kawaida ya binadamu. Modeli isiyo na akili ya kawaida inaweza kutoa majibu yasiyowezekana kimwili au yasiyofaa kijamii.
Kusaidia watumiaji kwa kazi (k.m., kukusanya usafiri, kutatua matatizo) kunahitaji kufikiri juu ya mlolongo wa vitendo, uhusiano wa sababu na athari, na sifa za vitu ulimwenguni.
Uchunguzi huu unagawanya njia kuu katika mikakati mitatu kuu ya kujumuisha akili ya kawaida katika modeli za AI ya mazungumzo.
Njia hii inahusisha kufundisha zaidi (kusahihisha) modeli kubwa za lugha zilizofundishwa awali kwenye seti za data zilizokusanywa mahsusi kwa ajili ya kazi za ufahamu wa akili ya kawaida. Seti za data kama SocialIQA, CommonsenseQA, na PIQA hutumiwa kubadilisha modeli ili zifikirie kuhusu mwingiliano wa kijamii, sifa za dhana, na uelewa wa kimwili.
Njia hii inajumuisha wazi vyanzo vya maarifa ya nje vilivyopangwa. Karatasi hii inasisitiza grafu mbili muhimu za maarifa (KG):
Modeli zimeundwa kuchukua na kufikiri juu ya habari kutoka kwa grafu hizi za maarifa wakati wa usindikaji wa mazungumzo. Modeli ya COMET, mtandao wa neva unaotegemea mabadiliko uliofundishwa kwenye ConceptNet na ATOMIC, imetajwa kama mfano muhimu unaoweza kutoa makisio mapya ya akili ya kawaida.
Njia inayoibuka inahusisha kufundisha modeli sio tu kutoa jibu bali pia kutoa maelezo ya lugha asili yanayothibitisha jibu kwa kutumia akili ya kawaida. Hii inalenga kufanya mchakato wa kufikiri wa modeli uwe wazi zaidi na uwezekano wa kuwa imara zaidi.
Tathmini ya ufahamu wa akili ya kawaida katika mazungumzo ni ngumu. Karatasi hii inajadili viwango kadhaa vya kulinganisha:
Vipimo vya kawaida vya moja kwa moja vinajumuisha usahihi wa maswali ya chaguo nyingi, BLEU/ROUGE kwa ubora wa majibu, na vipimo vipya vilivyoundwa kupima uthabiti wa ukweli au uwezekano wa kufikiri.
Karatasi hii inawasilisha uchambuzi wa awali wa modeli mbili kuu za mazungumzo wazi: BlenderBot 3 na LaMDA. Licha ya uwezo wao wa hali ya juu, modeli zote mbili zinaonyesha kushindwa kwa kiasi kikubwa katika ufahamu wa akili ya kawaida. Mifano inajumuisha:
Uchunguzi huu unahimiza sana hitaji la utafiti unaolenga eneo hili, kwani kushindwa kama huko kunaharibu moja kwa moja imani ya mtumiaji na uhalisi unaoonwa wa mwingiliano.
Hata modeli za hali ya juu zaidi za mazungumzo (BlenderBot3, LaMDA) zinaonyesha mapungufu muhimu katika akili ya kawaida, ikionyesha hili kama mpaka wa msingi, sio changamoto ya pembeni.
Ujumuishaji wa grafu za maarifa mara nyingi unahusisha mfumo wa uundaji ulioimarishwa na uchukuaji. Kwa kuzingatia muktadha wa mazungumzo $C$ na grafu ya maarifa $\mathcal{K}$, lengo la modeli linaweza kuwekwa kama kutoa majibu $R$ ambayo yanakuza:
$P(R | C, \mathcal{K}) = \sum_{k \in \mathcal{K}_C} P(k | C) \cdot P(R | C, k)$
Ambapo $\mathcal{K}_C$ ni sehemu ndogo ya tatu muhimu za maarifa zilizochukuliwa kutoka $\mathcal{K}$ kulingana na muktadha $C$. Neno $P(k | C)$ linawakilisha uwezekano wa modeli ya kuchukua wa kuchagua tatu ya maarifa $k$, na $P(R | C, k)$ ni uwezekano wa majibu kwa kuzingatia muktadha na maarifa yaliyochaguliwa. Modeli kama COMET zinatekeleza hili kwa kusahihisha mabadiliko (k.m., GPT-2) kwenye tatu za grafu ya maarifa zilizopangwa kama $(kichwa, uhusiano, mkia)$, ikiruhusu kutoa ukamilishaji unaowezekana wa $mkia$ kwa maswali mapya ya $(kichwa, uhusiano)$.
Muktadha: Kutathmini uelewa wa kiboti cha mazungumzo kuhusu simulizi rahisi.
Ingizo la Mtumiaji: "Nilijikunywelea glasi ya maji ya machungwa, lakini kisha simu ililia. Niliporudi, glasi ilikuwa tupu."
Mfumo wa Uchambuzi:
Mfumo huu unaangazia kufikiri kwa hatua nyingi kinachohitajika, kuanzia uchukuaji hadi makisio hadi ujumuishaji wa muktadha.
Njia ya mbele kwa AI ya mazungumzo inayotambua akili ya kawaida inahusisha mwelekeo kadhaa muhimu:
Ufahamu wa Msingi: Uchunguzi wa Richardson na Heck unafunua ukweli wa msingi, lakini mara nyingi usioelezwa, katika AI ya kisasa: modeli zetu za kisasa zaidi za lugha ni wapatanishi bora wa muundo wanaofanya kazi katika utupu wa maana. Wamejua "jinsi" ya lugha lakini hawana "kwa nini"—modeli ya msingi ya ulimwengu inayothibitisha maana. Hii sio hitilafu ndogo ya kiufundi; ni kasoro ya usanifu inayopunguza matumizi ya AI na kuaminika katika matumizi ya ulimwengu halisi. Kama wanaandika wanasema, hata modeli maarufu kama LaMDA na BlenderBot3 zinashindwa kwenye kazi rahisi za kufikiri za kibinadamu, pengo linaloakisi mapungufu yaliyozingatiwa katika nyanja zingine za AI, kama modeli za maono ya kompyuta ambazo hazina uelewa wa kimwili licha ya ujuzi wao wa kutambua.
Mtiririko wa Kimantiki na Nguvu na Kasoro: Nguvu ya karatasi hii iko katika tasnifu yake wazi—kugawa njia katika Usahihishaji, Utegemezi wa KG, na Maelezo. Mfumo huu unatenganisha kwa manufaa mazingira ya utafiti yasiyo na mpangilio. Msisitizo kwenye Grafu za Maarifa kama ConceptNet na ATOMIC ni sahihi; zinawakilisha jaribio la dhahiri zaidi la kufunga umeme wa akili ya kawaida. Hata hivyo, uchunguzi pia unaangazia bila kukusudia udhaifu kuu wa uwanja huu: kutegemea besi za maarifa dhaifu, zisizobadilika, na zinazokosa ukamilifu. ConceptNet, ingawa ni ya thamani, ni picha ya ukweli wa makubaliano, ikikosa hali ya mabadiliko, muktadha, na mara nyingi ya kupingana ya maarifa ya ulimwengu halisi. Njia ya modeli ya COMET ya kutoa maarifa ni njia ya kujanja, lakini ina hatari ya kupotosha "ukweli" unaosikika kuwa unawezekana, ikibadilisha tatizo moja na lingine. Majadiliano ya viwango vya kulinganisha yanaonyesha zaidi tatizo la meta: hatuna vipimo vya nguvu, vya moja kwa moja vya kutathmini kina cha kufikiri, mara nyingi tukirudi kwenye usahihi wa chaguo nyingi au alama za usawa za juu, ambazo ni viwakilishi vibaya vya uelewa wa kweli.
Ufahamu Unaotekelezeka: Njia ya mbele sio tu kuongeza ukubwa wa mifumo iliyopo. Kwanza, uwanja lazima upendelee kufikiri kwa sababu na kinyume, kuondoka zaidi ya uhusiano. Kama kazi ya Judea Pearl inavyodai, kuelewa "ikiwa" na "kwa nini" ndio msingi wa akili imara. Pili, tunahitaji mabadiliko kuelekea ujumuishaji wa neva na ishara. Njia safi za neva zinahitaji data nyingi na hazifahamiki; mifumo safi ya ishara ni dhaifu. Modeli mseto, ambazo zinatumia mitandao ya neva kwa kutambua na kufananisha muundo pamoja na injini za ishara kwa kukataa kimantiki, zinatoa njia yenye matumaini, ingawa yenye changamoto ya kihesabu. Taasisi kama CSAIL ya MIT zinafanya maendeleo hapa. Hatimaye, tathmini lazima ibadilike. Tunahitaji viwango vya kulinganisha vinavyojaribu mnyororo wa kufikiri, vinavyohitaji uthibitisho, na vinavyoadhibu utata, kuondoka zaidi ya kazi za zamu moja hadi simulizi za mazungumzo zenye hatua nyingi zinazofunua kutopatana kwa kimantiki. Mustakabali wa AI ya mazungumzo sio tu juu ya mazungumzo bora; ni juu ya kujenga mashine zinazoshiriki uelewa wetu wa ulimwengu, lengo ambalo bado liko mbali lakini sasa limefafanuliwa wazi zaidi shukrani kwa uchunguzi kama huu.