1. Pengenalan
Kertas tinjauan ini membahas cabaran kritikal untuk mengintegrasikan penaakulan akal budi ke dalam sistem AI perbualan moden. Walaupun model bahasa pratelah berskala besar (cth., BERT, GPT, T5) telah mencapai kejayaan luar biasa dalam memahami sintaks dan konteks, mereka pada dasarnya kekurangan pengetahuan duniawi tersirat yang dianggap remeh oleh manusia. Kertas ini berhujah bahawa jurang ini adalah penghalang utama yang menghalang AI daripada terlibat dalam dialog yang benar-benar semula jadi, koheren, dan pintar. Penulis, Christopher Richardson dan Larry Heck dari Georgia Tech, memposisikan kerja mereka sebagai pemetaan landskap semasa yang diperlukan—kaedah, set data, dan penilaian—untuk membimbing penyelidikan masa depan dalam bidang yang baru muncul tetapi penting ini.
2. Penaakulan Akal Budi dalam Masalah AI Perbualan
Kertas ini menggariskan tugas perbualan khusus di mana kegagalan akal budi paling ketara.
2.1 Koheren dan Keutamaan Dialog
Mengekalkan perbualan yang konsisten secara logik dan relevan topik merentasi beberapa pusingan. Tanpa akal budi, model menghasilkan respons yang betul secara sintaksis tetapi tidak masuk akal atau tidak relevan secara semantik.
2.2 Jawapan Soalan dan Penyempurnaan Tugas
Menjawab soalan atau menyempurnakan arahan yang memerlukan andaian yang tidak dinyatakan. Contohnya, memahami bahawa "rebus cerek" membayangkan langkah seterusnya ialah "tuang air," walaupun tidak dinyatakan secara jelas.
2.3 Sembang Santai dan Interaksi Sosial
Memahami jenaka, sarkasme, empati, dan norma sosial. Ini memerlukan model mendalam tentang psikologi manusia dan konvensyen sosial yang kebanyakan model semasa simpulkan secara statistik dan bukannya fahami.
3. Kaedah untuk Mengintegrasikan Akal Budi
Tinjauan ini mengkategorikan pendekatan teknikal utama yang diterokai dalam literatur.
3.1 Penalaan Halus Model
Melatih lanjut model bahasa berskala besar (LLM) pada set data yang kaya dengan pengetahuan akal budi (cth., ATOMIC, SocialIQA). Pendekatan ini bertujuan untuk membakar akal budi ke dalam parameter model secara tersirat.
3.2 Penjajaran Grafik Pengetahuan
Menyambungkan model secara jelas kepada pangkalan pengetahuan berstruktur seperti ConceptNet atau ATOMIC. Model mengambil atau menaakul grafik ini semasa inferens. Contoh utama ialah COMET (Bosselut et al., 2019), model transformer yang dilatih untuk menghasilkan tupel pengetahuan baharu daripada grafik ini.
3.3 Penjelasan Bahasa Semula Jadi
Melatih model untuk menghasilkan bukan sahaja jawapan tetapi juga jejak penaakulan atau penjelasan dalam bahasa semula jadi. Ini memaksa model untuk mengartikulasikan langkah-langkah tersirat, berpotensi meningkatkan keteguhan.
4. Penanda Aras dan Metrik Penilaian
4.1 Set Data Biasa
- CommonsenseQA: Soalan jawapan pelbagai pilihan yang memerlukan akal budi.
- SocialIQA: Memberi tumpuan kepada akal budi sosial dan emosi.
- PIQA: Akal budi fizikal untuk mengikuti arahan.
- DialogRE: Penaakulan tentang hubungan dalam dialog.
4.2 Metrik Penilaian
Selain ketepatan piawai, bidang ini menggunakan metrik seperti:
- Penilaian Manusia: Untuk koheren, menarik, dan masuk akal.
- Pengetahuan-F1: Mengukur pertindihan dengan fakta pengetahuan sebenar.
- Ketepatan Rantai Penaakulan: Menilai kewajaran logik penjelasan yang dihasilkan.
5. Pemerhatian Awal mengenai Model Terkini
Penulis membentangkan analisis kritikal dan praktikal mengenai model dialog terbuka terkemuka, BlenderBot 3 dan LaMDA. Pemerhatian mereka memburukkan: walaupun skala dan kecanggihan model ini, mereka kerap gagal dalam tugas akal budi remeh. Contoh termasuk menghasilkan kenyataan bercanggah dalam perbualan atau gagal memahami kekangan fizikal asas. Bukti empirikal ini dengan kuat menekankan tesis utama kertas: prestasi penanda aras tidak menyamai akal budi yang teguh dan boleh digunakan dalam interaksi terbuka.
6. Inti Pati & Analisis
Inti Pati: Bidang AI perbualan mengalami "hutang akal budi" yang teruk. Kami telah membina pencakar langit (LLM besar) di atas asas tersirat yang goyah. Tinjauan ini betul mengenal pasti bahawa isu teras bukan kekurangan teknik, tetapi ketidakpadanan asas antara sifat statistik, padanan corak NLP moden dan sifat simbolik, kausal, dan analogi akal budi manusia. Seperti yang dinyatakan dalam kerja seminal "On the Measure of Intelligence" oleh Chollet (2019), kepintaran sebenar memerlukan pemerolehan kemahiran dan generalisasi dalam situasi baharu—pencapaian mustahil tanpa model dunia yang kaya.
Aliran Logik: Struktur kertas ini logik dan meyakinkan. Ia bergerak daripada mentakrifkan masalah dan manifestasinya (Bahagian 1-2), ke mengkatalogkan penyelesaian kejuruteraan yang dicuba (Bahagian 3), ke memeriksa bagaimana kami mengukur kemajuan (Bahagian 4), dan akhirnya memberikan bukti konkrit bahawa penyelesaian semasa tidak mencukupi (Bahagian 5). Aliran ini mencerminkan kaedah saintifik: hipotesis (akal budi hilang), eksperimen (pelbagai kaedah integrasi), pengukuran (penanda aras), dan kesimpulan (tidak selesai).
Kekuatan & Kelemahan: Kekuatan terbesar kertas ini ialah penilaian kritikal konkritnya terhadap model SOTA. Ia melangkaui abstraksi akademik untuk menunjukkan mod kegagalan sebenar. Kelemahan utamanya, biasa untuk tinjauan, ialah sifatnya yang deskriptif dan bukannya preskriptif. Ia memetakan wilayah tetapi menawarkan bimbingan terhad tentang laluan mana yang paling menjanjikan. Ia kurang menekankan batasan seni bina model berasaskan transformer tulen untuk penaakulan kausal, satu titik yang ditekankan dalam penyelidikan dari institusi seperti CSAIL MIT mengenai integrasi neuro-simbolik.
Wawasan Boleh Tindak: Untuk pengamal dan penyelidik, pengajaran jelas: berhenti memperlakukan akal budi sebagai hanya satu lagi set data untuk ditala halus. Bidang ini memerlukan anjakan paradigma. 1) Melabur dalam Seni Bina Neuro-Simbolik: Model hibrid yang menggabungkan rangkaian neural dengan perwakilan pengetahuan eksplisit yang boleh dimanipulasi (seperti kerja pada Differentiable Inductive Logic Programming) adalah hala tuju yang perlu. 2) Membangunkan Persekitaran Simulasi Lebih Baik: Seperti Gym OpenAI untuk pembelajaran pengukuhan, kami memerlukan simulator interaktif yang kaya (diilhamkan oleh platform seperti THOR AllenAI) di mana ejen boleh belajar akal budi melalui pengalaman dan akibat berbadan, bukan hanya teks. 3) Memikir Semula Penilaian: Beralih daripada penanda aras QA statik kepada penilaian dinamik, interaktif di mana model mesti menunjukkan pemahaman dunia yang konsisten dari masa ke masa, serupa dengan prinsip di sebalik cabaran ARC (Abstraction and Reasoning Corpus).
7. Butiran Teknikal
Pendekatan penjajaran grafik pengetahuan selalunya melibatkan rangka kerja penjanaan dipertingkat pengambilan. Secara formal, diberi konteks dialog $C$, model mengambil satu set tupel pengetahuan akal budi relevan $K = \{(h_i, r_i, t_i)\}$ daripada grafik pengetahuan $\mathcal{G}$, di mana $h$ ialah entiti kepala, $r$ hubungan, dan $t$ entiti ekor. Respons akhir $R$ dihasilkan dengan mengkondisikan kedua-dua $C$ dan $K$:
$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$
Model seperti COMET melaksanakan ini dengan menala halus transformer (cth., GPT-2) untuk meramal entiti ekor $t$ diberi $(h, r)$, berkesan belajar untuk melintasi grafik dalam ruang laten: $t = \text{COMET}(h, r)$.
8. Keputusan Eksperimen & Penerangan Carta
Walaupun pratonton PDF tidak mengandungi carta eksplisit, pemerhatian awal yang diterangkan membayangkan jurang prestasi yang ketara. Kami boleh konseptualkan carta bar hipotesis yang membandingkan prestasi manusia berbanding BlenderBot3 dan LaMDA pada satu set tugas dialog akal budi (cth., Koheren, Penaakulan Fizikal, Penaakulan Sosial). Paksi-Y akan mewakili skor (0-100). Carta akan menunjukkan:
- Prestasi Manusia: Bar yang konsisten tinggi (~90-95) merentasi semua kategori tugas.
- Model SOTA (BlenderBot3/LaMDA): Bar menunjukkan varians tinggi—mungkin ~80 pada Koheren (di mana mereka boleh meniru corak), tetapi jatuh mendadak ke ~50-60 pada tugas Penaakulan Fizikal dan Sosial yang memerlukan pemahaman lebih mendalam. Bar ralat akan besar, menunjukkan ketidakkonsistenan.
- Pengajaran Utama: Jurang visual, terutamanya dalam penaakulan fizikal dan sosial, akan jelas menggambarkan dakwaan kertas tentang batasan asas, bukan peningkatan beransur yang diperlukan.
9. Contoh Kerangka Analisis
Senario: Menilai pemahaman ejen perbualan tentang naratif mudah.
Konteks Dialog: Pengguna: "Saya baru dapat anak anjing! Dia sangat bertenaga. Saya tinggalkan dia di ruang tamu dengan kasut kegemaran saya semasa saya menjawab pintu."
Respons Ejen A (Kekurangan Akal Budi): "Baguslah. Apa warna kasut awak?"
Respons Ejen B (Dengan Akal Budi): "Alamak, awak mungkin mahu periksa kasut itu! Anak anjing suka mengunyah."
Analisis Kerangka:
- Pengambilan Pengetahuan: Adakah model mengakses tupel seperti (anak anjing, Mampu, mengunyah), (kasut, Diperbuat Daripada, kulit/kain), (mengunyah, Menyebabkan, kerosakan)?
- Penaakulan Kausal: Bolehkah ia merantai fakta ini: anak anjing baharu + bertenaga + tidak diawasi + objek boleh kunyah → kebarangkalian tinggi kerosakan.
- Penaakulan Sosial/Pragmatik: Adakah ia menyimpulkan kebimbangan tidak dinyatakan pengguna (risau tentang kasut) dan menghasilkan amaran relevan, empati?
Respons A gagal ketiga-tiganya. Respons B menunjukkan aplikasi berjaya kerangka tersirat ini. Model SOTA semasa akan menghasilkan Respons A pada peratusan masa yang tidak remeh.
10. Aplikasi & Hala Tuju Masa Depan
Menyelesaikan penaakulan akal budi akan membuka kunci aplikasi transformatif:
- Pembantu AI Peribadi Sebenar: Ejen yang boleh menguruskan tugas kompleks secara proaktif ("Pesan barangan runcit untuk minggu ini mempertimbangkan jadual saya, matlamat diet, dan apa yang sudah ada dalam peti sejuk").
- Pendidik Pendidikan Lanjutan: Sistem yang boleh mendiagnosis salah faham pelajar dengan memodelkan keadaan mental mereka dan menghasilkan penjelasan Sokratik.
- Sahabat Kesihatan Mental: Bot sembang mampu sokongan emosi bernuansa dan pengesanan krisis dengan memahami norma sosial dan psikologi.
- Ejen Autonomi dalam Dunia Maya: NPC dalam permainan atau metaverse yang berkelakuan dengan motif boleh dipercayai, matlamat jangka panjang, dan pemahaman persekitaran mereka.
- Hala Tuju Penyelidikan: Masa depan terletak pada pembelajaran berbadan, multimodal (belajar daripada video, audio, dan interaksi fizikal), model dunia kausal yang membolehkan penaakulan kontrafaktual, dan grafik pengetahuan akal budi berskala besar, terkurasi yang dikemas kini secara dinamik oleh sistem AI seperti COMET.
11. Rujukan
- Richardson, C., & Heck, L. (2023). Commonsense Reasoning for Conversational AI: A Survey of the State of the Art. Workshop on Knowledge Augmented Methods for NLP, AAAI 2023.
- Bosselut, A., Rashkin, H., Sap, M., Malaviya, C., Celikyilmaz, A., & Choi, Y. (2019). COMET: Commonsense Transformers for Automatic Knowledge Graph Construction. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
- Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. Proceedings of the AAAI Conference on Artificial Intelligence.
- Sap, M., Le Bras, R., Allaway, E., Bhagavatula, C., Lourie, N., Rashkin, H., ... & Choi, Y. (2019). ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning. Proceedings of the AAAI Conference on Artificial Intelligence.
- Chollet, F. (2019). On the Measure of Intelligence. arXiv preprint arXiv:1911.01547.
- Storks, S., Gao, Q., & Chai, J. Y. (2019). Recent Advances in Natural Language Inference: A Survey of Benchmarks, Resources, and Approaches. arXiv preprint arXiv:1904.01172.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems.