Penaakulan Akal Budi untuk AI Perbualan: Tinjauan Keadaan Semasa

1. Pengenalan

Kertas tinjauan ini membahas cabaran kritikal untuk mengintegrasikan penaakulan akal budi ke dalam sistem AI perbualan terkini. Walaupun model berasaskan transformer seperti BERT, GPT, dan T5 telah mencapai kejayaan luar biasa dalam memahami sintaks bahasa dan semantik kontekstual, mereka masih bergelut dengan tugas yang memerlukan pengetahuan akal budi—pengetahuan tentang dunia yang biasanya dianggap remeh oleh manusia. Kertas ini berhujah bahawa jurang ini dengan ketara menghalang pembangunan sistem dialog yang benar-benar semula jadi dan koheren.

Kepentingan akal budi untuk kecerdasan mesin telah lama diakui, namun skema sejagat untuk mengkodifikasikan dan mengintegrasikan pengetahuan ini masih sukar dicapai. Tinjauan ini memberi tumpuan kepada persilangan antara penaakulan akal budi dan AI perbualan, mengkaji semula set data, metodologi, dan penanda aras penilaian yang relevan.

2. Penaakulan Akal Budi dalam Masalah AI Perbualan

Penaakulan akal budi adalah penting merentasi pelbagai aspek AI perbualan. Kertas ini mengenal pasti beberapa bidang masalah utama di mana ketiadaannya paling ketara.

2.1 Kefahaman Dialog

Model mesti membuat inferensi tentang niat yang tidak dinyatakan, menyelesaikan kekaburan, dan memahami konteks tersirat. Sebagai contoh, memahami bahawa "Saya berlari ke kedai" membayangkan mod pengangkutan dan niat untuk membeli, bukan sekadar pergerakan fizikal.

2.2 Penjanaan Respons

Menjana respons yang koheren, relevan, dan sesuai secara sosial memerlukan pengetahuan tentang norma sosial, hukum fizik, dan tingkah laku manusia tipikal. Model yang kekurangan akal budi mungkin menghasilkan balasan yang mustahil secara fizikal atau janggal secara sosial.

2.3 Dialog Berorientasikan Tugas

Membantu pengguna dengan tugas (contohnya, menempah perjalanan, penyelesaian masalah) memerlukan penaakulan tentang urutan tindakan, hubungan sebab-akibat, dan sifat objek di dunia.

3. Kaedah untuk Mengintegrasikan Akal Budi

Tinjauan ini mengkategorikan pendekatan utama kepada tiga strategi utama untuk menggabungkan akal budi ke dalam model AI perbualan.

3.1 Penalaan Halus Model

Pendekatan ini melibatkan latihan lanjut (penalaan halus) model bahasa pratelah berskala besar pada set data yang dikurasi khusus untuk tugas penaakulan akal budi. Set data seperti SocialIQA, CommonsenseQA, dan PIQA digunakan untuk menyesuaikan model untuk membuat penaakulan tentang interaksi sosial, sifat konseptual, dan intuisi fizikal.

3.2 Penjajaran Graf Pengetahuan

Kaedah ini secara eksplisit menggabungkan sumber pengetahuan luaran berstruktur. Kertas ini mengetengahkan dua graf pengetahuan (KG) utama:

ConceptNet: Rangkaian semantik yang mengandungi pengetahuan dunia umum tentang perkataan dan frasa.
ATOMIC: KG yang memberi tumpuan kepada pengetahuan inferensi tentang peristiwa harian, menangkap hubungan "jika-maka" mengenai sebab, kesan, dan keadaan mental peserta.

Model direka bentuk untuk mengambil dan membuat penaakulan ke atas maklumat dari KG ini semasa pemprosesan dialog. Model COMET, rangkaian neural berasaskan transformer yang dilatih pada ConceptNet dan ATOMIC, disebut sebagai contoh utama yang mampu menjana inferensi akal budi baharu.

3.3 Penjelasan Bahasa Semula Jadi

Pendekatan yang baru muncul melibatkan latihan model bukan sahaja untuk menghasilkan jawapan tetapi juga untuk menjana penjelasan bahasa semula jadi yang membenarkan jawapan tersebut menggunakan akal budi. Ini bertujuan untuk menjadikan proses penaakulan model lebih telus dan berpotensi lebih teguh.

4. Penanda Aras dan Metrik Penilaian

Menilai penaakulan akal budi dalam dialog adalah kompleks. Kertas ini membincangkan beberapa penanda aras:

Penanda Aras Tugas Khusus: Set data khusus untuk menilai kemahiran penaakulan tertentu (contohnya, penaakulan fizikal dalam PIQA, penaakulan sosial dalam SocialIQA).
Penanda Aras Dialog Bersepadu: Penilaian dalam tugas dialog yang lebih luas, seperti set data Commonsense Dialogue yang menguji sama ada respons model konsisten dengan fakta akal budi.
Penilaian Manusia: Pada akhirnya, kesemula jadian dan koheren dialog, yang dinilai oleh manusia, kekal sebagai metrik kritikal, walaupun subjektif.

Metrik automatik biasa termasuk ketepatan pada soalan pelbagai pilihan, BLEU/ROUGE untuk kualiti respons, dan metrik baharu yang direka untuk mengukur konsistensi faktual atau kebolehjadian penaakulan.

5. Pemerhatian Awal mengenai Model SOTA

Kertas ini membentangkan analisis awal dua model dialog terbuka terkemuka: BlenderBot 3 dan LaMDA. Walaupun mempunyai keupayaan canggih, kedua-dua model menunjukkan kegagalan ketara dalam penaakulan akal budi. Contoh termasuk:

Menjana respons yang melanggar hukum fizik asas (contohnya, mencadangkan objek boleh berada di dua tempat pada masa yang sama).
Gagal memahami isyarat atau norma sosial tersirat.
Menghasilkan kenyataan yang tidak konsisten secara faktual dalam satu pusingan perbualan.

Pemerhatian ini sangat mendorong keperluan untuk penyelidikan fokus dalam bidang ini, kerana kegagalan sedemikian secara langsung melemahkan kepercayaan pengguna dan persepsi kesemula jadian interaksi.

Pandangan Utama

Walaupun model perbualan paling maju (BlenderBot3, LaMDA) menunjukkan jurang kritikal dalam akal budi, menonjolkannya sebagai sempadan asas, bukan cabaran pinggiran.

6. Butiran Teknikal dan Rumusan Matematik

Integrasi graf pengetahuan selalunya melibatkan kerangka penjanaan dipertingkatkan pengambilan. Diberikan konteks dialog $C$ dan graf pengetahuan $\mathcal{K}$, objektif model boleh dirangka sebagai menjana respons $R$ yang memaksimumkan:

$P(R | C, \mathcal{K}) = \sum_{k \in \mathcal{K}_C} P(k | C) \cdot P(R | C, k)$

Di mana $\mathcal{K}_C$ adalah subset tiga kali ganda pengetahuan relevan yang diambil dari $\mathcal{K}$ berdasarkan konteks $C$. Istilah $P(k | C)$ mewakili kebarangkalian model pengambilan untuk memilih tiga kali ganda pengetahuan $k$, dan $P(R | C, k)$ adalah kebarangkalian respons diberikan konteks dan pengetahuan yang dipilih. Model seperti COMET melaksanakan ini dengan menala halus transformer (contohnya, GPT-2) pada tiga kali ganda graf pengetahuan yang diformat sebagai $(head, relation, tail)$, membolehkannya menjana pelengkap $tail$ yang boleh dipercayai untuk pertanyaan $(head, relation)$ baharu.

7. Kerangka Analisis: Kajian Kes

Skenario: Menilai kefahaman chatbot tentang naratif mudah.

Input Pengguna: "Saya menuangkan segelas jus oren untuk diri sendiri, tetapi kemudian telefon berdering. Apabila saya kembali, gelas itu kosong."

Kerangka Analisis:

Pengambilan Pengetahuan: Sistem harus mengambil fakta akal budi yang relevan: Cecair boleh diminum. Haiwan peliharaan (seperti kucing) boleh minum cecair. Orang menjawab telefon.
Penjanaan Inferensi: Menggunakan model seperti COMET, jana inferensi yang mungkin untuk peristiwa "gelas jus ditinggalkan tanpa pengawasan": "Jika X meninggalkan minuman tanpa pengawasan, maka haiwan peliharaan mungkin meminumnya" (hubungan ATOMIC: xEffect).
Pemarkahan Hipotesis: Nilai penjelasan inferensi mana ("seseorang meminumnya", "ia tersejat", "haiwan peliharaan meminumnya") paling sesuai dengan konteks dan kebolehjadian fizikal. Inferensi yang betul bergantung pada pengetahuan dunia yang tidak dinyatakan tentang peristiwa rumah tangga tipikal.
Pembentukan Respons: Jana soalan atau kenyataan susulan yang koheren: "Alamak, adakah kucing awak yang minum?" berbanding yang tidak boleh dipercayai: "Adakah ia bertukar menjadi gas?"

Kerangka ini menonjolkan penaakulan pelbagai langkah yang diperlukan, bergerak dari pengambilan ke inferensi ke integrasi kontekstual.

8. Aplikasi Masa Depan dan Hala Tuju Penyelidikan

Jalan ke hadapan untuk AI perbualan yang sedar akal budi melibatkan beberapa hala tuju utama:

Akal Budi Multimodal: Mengintegrasikan pengetahuan visual, pendengaran, dan deria dengan bahasa, seperti yang dipelopori oleh model seperti CLIP dan DALL-E OpenAI, yang menghubungkan teks dengan konsep visual. Agen dialog masa depan mungkin perlu membuat penaakulan tentang adegan yang digambarkan dalam perbualan.
Graf Pengetahuan Dinamik: Bergerak melebihi KG statik kepada sistem yang boleh belajar dan mengemas kini pengetahuan akal budi secara berterusan dari interaksi, serupa dengan cara manusia melakukannya.
Penaakulan Kausal: Mendalami kefahaman model tentang sebab-akibat, komponen teras akal budi. Penyelidikan dari hierarki kausal Judea Pearl mencadangkan pergerakan dari perkaitan ke intervensi dan penaakulan kontrafaktual adalah penting untuk AI yang teguh.
Akal Budi Peribadi dan Budaya: Membangunkan model yang memahami norma akal budi yang berbeza merentasi individu, komuniti, dan budaya.
Integrasi Neuro-Simbolik: Menggabungkan kekuatan pengecaman corak rangkaian neural (seperti transformer) dengan keupayaan penaakulan logik eksplisit sistem AI simbolik. Pendekatan hibrid ini, seperti yang diterokai oleh model Probabilistic Symbolic (PS) MIT, adalah laluan yang menjanjikan untuk penaakulan akal budi yang boleh diurus dan boleh ditafsir.

9. Rujukan

Richardson, C., & Heck, L. (2023). Commonsense Reasoning for Conversational AI: A Survey of the State of the Art. Workshop on Knowledge Augmented Methods for NLP, AAAI 2023.
Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. Proceedings of AAAI.
Sap, M., et al. (2019). ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning. Proceedings of AAAI.
Bosselut, A., et al. (2019). COMET: Commonsense Transformers for Automatic Knowledge Graph Construction. Proceedings of ACL.
Gao, J., et al. (2018). Neural Approaches to Conversational AI. Foundations and Trends® in Information Retrieval.
Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of ICML (CLIP).

Perspektif Penganalisis: Jurang Akal Budi

Pandangan Teras: Tinjauan oleh Richardson dan Heck mendedahkan kebenaran asas, namun sering kali kurang ditekankan, dalam AI moden: model bahasa paling canggih kita adalah pencari corak yang cemerlang yang beroperasi dalam vakum semantik. Mereka telah menguasai "bagaimana" bahasa tetapi kekurangan "mengapa"—model dunia asas yang mendasari makna. Ini bukan pepijat teknikal kecil; ia adalah kelemahan seni bina yang mengehadkan utiliti dan kebolehpercayaan AI dalam aplikasi dunia sebenar. Seperti yang diperhatikan oleh penulis, walaupun model utama seperti LaMDA dan BlenderBot3 gagal dalam tugas penaakulan manusia remeh, jurang yang menggema batasan yang diperhatikan dalam domain AI lain, seperti model penglihatan komputer yang kekurangan kefahaman fizikal walaupun mempunyai kehebatan persepsi.

Aliran Logik & Kekuatan & Kelemahan: Kekuatan kertas ini terletak pada taksonominya yang jelas—mengkategorikan pendekatan kepada Penalaan Halus, Penjajaran KG, dan Penjelasan. Kerangka ini dengan berguna membahagikan landskap penyelidikan yang kacau. Penekanan pada Graf Pengetahuan seperti ConceptNet dan ATOMIC adalah tepat; mereka mewakili percubaan paling konkrit untuk menangkap kilat akal budi. Walau bagaimanapun, tinjauan ini juga secara tidak sengaja menonjolkan kelemahan utama bidang ini: pergantungan pada pangkalan pengetahuan yang rapuh, statik, dan tidak dapat dielakkan tidak lengkap. ConceptNet, walaupun berharga, adalah gambaran realiti konsensus, kekurangan sifat dinamik, kontekstual, dan sering bercanggah pengetahuan dunia sebenar. Pendekatan model COMET untuk menjana pengetahuan adalah penyelesaian pintar, tetapi ia berisiko menghasil "fakta" yang kedengaran boleh dipercayai tetapi salah, menukar satu masalah dengan yang lain. Perbincangan penanda aras selanjutnya mendedahkan meta-masalah: kita kekurangan metrik automatik yang teguh untuk menilai kedalaman penaakulan, sering kembali kepada ketepatan pelbagai pilihan atau skor persamaan cetek, yang merupakan proksi yang lemah untuk kefahaman sebenar.

Pandangan Boleh Tindak: Jalan ke hadapan bukan sekadar menskala paradigma sedia ada. Pertama, bidang ini mesti mengutamakan penaakulan kausal dan kontrafaktual, bergerak melebihi korelasi. Seperti yang dihujahkan oleh kerja Judea Pearl, memahami "apa jika" dan "mengapa" adalah asas kecerdasan teguh. Kedua, kita memerlukan peralihan ke arah integrasi neuro-simbolik. Pendekatan neural tulen lapar data dan legap; sistem simbolik tulen rapuh. Model hibrid, yang memanfaatkan rangkaian neural untuk persepsi dan pencocokan corak bersama-sama enjin simbolik untuk deduksi logik, menawarkan laluan yang menjanjikan, walaupun mencabar secara pengiraan. Institusi seperti CSAIL MIT sedang membuat langkah di sini. Akhirnya, penilaian mesti berkembang. Kita memerlukan penanda aras yang menguji tekanan rantai penaakulan, memerlukan justifikasi, dan mengenakan penalti percanggahan, bergerak melebihi tugas pusingan tunggal kepada naratif dialog pelbagai langkah yang mendedahkan ketidakselarasan logik. Masa depan AI perbualan bukan hanya tentang sembang yang lebih baik; ia tentang membina mesin yang berkongsi kefahaman kita tentang dunia, matlamat yang masih sukar dicapai tetapi kini lebih jelas ditakrifkan terima kasih kepada tinjauan seperti ini.