2.1 Uwiano na Umuhimu wa Mazungumzo
Kudumisha mazungumzo yanayofuatana kimantiki na yanayohusiana na mada kwa zamu nyingi. Bila akili ya kawaida, mifano hutoa majibu yanayofaa kimuundo lakini yasiyo na maana au yasiyohusiana kimantiki.
Karatasi hii ya uchunguzi inashughulikia changamoto muhimu ya kujumuisha ufahamu wa akili ya kawaida katika mifumo ya kisasa ya AI ya mazungumzo. Ingawa mifano mikubwa ya lugha iliyofunzwa awali (k.m., BERT, GPT, T5) imepata mafanikio makubwa katika kuelewa sintaksia na muktadha, kimsingi wanakosa maarifa ya kimwili na ya kijamii ambayo binadamu huyachukulia poa. Karatasi inasema kuwa pengo hili ndio kizuizi kikuu kinachozuia AI kushiriki katika mazungumzo ya asili, yanayofuatana, na yenye akili. Waandishi, Christopher Richardson na Larry Heck kutoka Georgia Tech, wanaweka kazi yao kama ramani muhimu ya hali ya sasa—mbinu, seti za data, na tathmini—ili kuongoza utafiti wa baadaye katika uwanja huu mpya lakini muhimu.
Karatasi inaelezea kazi maalum za mazungumzo ambapo kushindwa kwa akili ya kawaida kunaonekana wazi zaidi.
Kudumisha mazungumzo yanayofuatana kimantiki na yanayohusiana na mada kwa zamu nyingi. Bila akili ya kawaida, mifano hutoa majibu yanayofaa kimuundo lakini yasiyo na maana au yasiyohusiana kimantiki.
Kujibu maswali au kukamilisha maagizo yanayohitaji dhana zisizotajwa. Kwa mfano, kuelewa kuwa "chemsha birika" inamaanisha hatua inayofuata ni "mimina maji," hata kama haijatajwa wazi.
Kuelewa ucheshi, kejeli, huruma, na kanuni za kijamii. Hii inahitaji mfano wa kina wa saikolojia ya binadamu na mila za kijamii ambazo mifano ya sasa kwa kiasi kikubwa inabainisha kwa takwimu badala ya kuelewa.
Uchunguzi huu hupanga njia kuu za kiufundi zilizochunguzwa katika fasihi.
Kufunza zaidi mifano mikubwa ya lugha (LLMs) kwenye seti za data zenye maarifa mengi ya akili ya kawaida (k.m., ATOMIC, SocialIQA). Njia hii inalenga kuwaingiza akili ya kawaida ndani ya vigezo vya mfano kwa njia isiyo wazi.
Kuunganisha wazi mfano na besi za maarifa zilizopangwa kama ConceptNet au ATOMIC. Mfano hupata au kufanya mantiki juu ya grafu hizi wakati wa utambuzi. Mfano muhimu ni COMET (Bosselut et al., 2019), mfano wa transformer uliofunzwa kutengeneza tuple mpya za maarifa kutoka kwa grafu hizi.
Kufunza mifano kutoa sio jibu tu bali pia wimbo wa mantiki au maelezo kwa lugha ya asili. Hii inamlazimisha mfano kuelezea hatua zisizo wazi, na kwa uwezekano kuboresha uthabiti.
Zaidi ya usahihi wa kawaida, uwanja huu hutumia vipimo kama:
Waandishi wanawasilisha uchambuzi muhimu, wa vitendo wa mifano ya kuongoza ya mazungumzo wazi, BlenderBot 3 na LaMDA. Uchunguzi wao ni wa kulaumiwa: licha ya ukubwa na ustadi wa mifano hii, mara nyingi wanashindwa katika kazi rahisi za akili ya kawaida. Mifano inajumuisha kutengeneza taarifa zinazokinzana ndani ya mazungumzo au kushindwa kuelewa vikwazo vya msingi vya kimwili. Ushahidi huu wa majaribio unaonyesha kwa nguvu nadharia kuu ya karatasi: utendaji wa kiwango cha kulinganisha sio sawa na akili ya kawaida thabiti, inayoweza kutumiwa katika mwingiliano wa wazi.
Uelewa wa Msingi: Uwanja wa AI ya mazungumzo unakumbwa na "deni kubwa la akili ya kawaida." Tumejenga majengo marefu (LLMs kubwa) juu ya misingi dhaifu, isiyo wazi. Uchunguzi huu unatambua kwa usahihi kwamba suala la msingi sio ukosefu wa mbinu, bali kutolingana kwa msingi kati ya hali ya takwimu, muundo wa kufananisha wa NLP ya kisasa na hali ya ishara, ya sababu, na ya kulinganisha ya akili ya kawaida ya binadamu. Kama ilivyoelezwa katika kazi muhimu "On the Measure of Intelligence" na Chollet (2019), akili ya kweli inahitaji upatikanaji wa ujuzi na ujumuishaji katika hali mpya—jambo lisilowezekana bila mfano tajiri wa ulimwengu.
Mtiririko wa Mantiki: Muundo wa karatasi huu ni wa kimantiki na wa kushawishi. Unahama kutoka kwa kufafanua tatizo na dalili zake (Sehemu 1-2), hadi kusajili suluhisho za uhandisi zilizojaribiwa (Sehemu 3), hadi kuchunguza jinsi tunavyopima maendeleo (Sehemu 4), na hatimaye kutoa ushahidi halisi kwamba suluhisho za sasa hazitoshi (Sehemu 5). Mtiririko huu unafanana na mbinu ya kisayansi: nadharia (akili ya kawaida haipo), majaribio (njia mbalimbali za ujumuishaji), kipimo (viwango vya kulinganisha), na hitimisho (halijatatuliwa).
Nguvu na Mapungufu: Nguvu kuu ya karatasi hii ni tathmini yake halisi, ya kukosoa ya mifano ya SOTA. Inapita zaidi ya dhana za kitaaluma kuonyesha njia halisi za kushindwa. Kosa lake kuu, la kawaida kwa uchunguzi, ni hali yake ya kuelezea badala ya kuelekeza. Inachora ramani ya eneo lakini inatoa mwongozo mdogo juu ya njia gani zina matumaini zaidi. Haionyeshi vizuri mapungufu ya muundo wa mifano safi ya transformer kwa mantiki ya sababu, jambo linalosisitizwa sana katika utafiti kutoka taasisi kama MIT's CSAIL kuhusu ujumuishaji wa neoro-ya ishara.
Uelewa Unaoweza Kutekelezwa: Kwa wataalamu na watafiti, hitimisho ni wazi: acha kuchukulia akili ya kawaida kama seti nyingine tu ya data ya kusahihisha. Uwanja unahitaji mabadiliko ya dhana. 1) Wekeza katika Miundo ya Neoro-ya Ishara: Mifano mseto inayounganisha mitandao ya neva na uwakilishi wa maarifa wazi, yanayoweza kubadilishwa (kama kazi ya Differentiable Inductive Logic Programming) ni mwelekeo muhimu. 2) Kukuza Mazingira Bora ya Kuiga: Kama Gym ya OpenAI kwa ujifunzaji wa kuimarisha, tunahitaji viiga vya mwingiliano tajiri (vilivyochochewa na majukwaa kama THOR ya AllenAI) ambapo wakala wanaweza kujifunza akili ya kawaida kupitia uzoefu wa kimwili na matokeo, sio maandishi tu. 3) Fikiria Upya Tathmini: Hamia kutoka kwa viwango vya kulinganisha vya maswali na majabu hadi tathmini ya mwingiliano, ambapo mifano lazima ionyeshe uelewa thabiti wa ulimwengu kwa muda, sawa na kanuni za changamoto ya ARC (Abstraction and Reasoning Corpus).
Njia ya utegegemezi wa grafu ya maarifa mara nyingi inajumuisha mfumo wa utengenezaji ulioimarishwa wa upatikanaji. Kimaadili, kwa kuzingatia muktadha wa mazungumzo $C$, mfano hupata seti ya tuple zinazohusiana za maarifa ya akili ya kawaida $K = \{(h_i, r_i, t_i)\}$ kutoka kwa grafu ya maarifa $\mathcal{G}$, ambapo $h$ ni kitu kikuu, $r$ uhusiano, na $t$ kitu cha mkia. Jibu la mwisho $R$ linatengenezwa kwa kuzingatia $C$ na $K$:
$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$
Mifano kama COMET hutekeleza hii kwa kusahihisha transformer (k.m., GPT-2) kutabiri kitu cha mkia $t$ kwa kuzingatia $(h, r)$, kwa ufanisi kujifunza kupita grafu katika nafasi ya siri: $t = \text{COMET}(h, r)$.
Ingawa onyesho la PDF halina chati wazi, uchunguzi wa awali ulioelezwa unamaanisha pengo kubwa la utendaji. Tunaweza kufikiria chati ya kihisia ya baa inayolinganisha utendaji wa kibinadamu dhidi ya BlenderBot3 na LaMDA kwenye safu ya kazi za mazungumzo za akili ya kawaida (k.m., Uwiano, Mantiki ya Kimwili, Mantiki ya Kijamii). Mhimili wa Y ungewakilisha alama (0-100). Chati ingeonyesha:
Muktadha: Kutathmini uelewa wa wakala wa mazungumzo kuhusu simulizi rahisi.
Muktadha wa Mazungumzo: Mtumiaji: "Nimepata mtoto wa mbwa mpya! Ana nguvu sana. Nimemwacha kwenye chumba cha kupumzika na viatu vyangu vipendwa wakati nilikuwa nikijibu mlango."
Jibu la Wakala A (Lakini Akili ya Kawaida): "Vizuri. Viatu vyako vina rangi gani?"
Jibu la Wakala B (Na Akili ya Kawaida): "Lo! Unaweza kutaka kuangalia viatu hivyo! Watoto wa mbwa wanapenda kutafuna."
Uchambuzi wa Mfumo:
Kutatua mantiki ya akili ya kawaida itafungua matumizi ya mabadiliko: