1. Jadual Kandungan
- 2. Pengenalan
- 3. Pandangan Utama: Peralihan Paradigma Psikometrik
- 4. Aliran Logik: Dari AI Sempit ke Kecerdasan Am
- 5. Kekuatan & Kelemahan: Penilaian Kritikal Ujian AGI
- 6. Pandangan Boleh Tindak: Hala Tuju Masa Depan
- 7. Butiran Teknikal dan Perumusan Matematik
- 8. Keputusan Eksperimen dan Analisis Penanda Aras
- 9. Rangka Kerja Analitikal: Kajian Kes ARC
- 10. Aplikasi Masa Depan dan Tinjauan
- 11. Analisis dan Ulasan Asal
- 12. Rujukan
2. Pengenalan
Kertas kerja "Hujah untuk Kecerdasan Am Psikometrik Buatan" oleh Mark McPherson (Universiti Bournemouth, 2020) mengkaji secara kritis penanda aras dan ujian sedia ada untuk mengukur Kecerdasan Am Buatan (AGI). Penulis berhujah bahawa sistem AI semasa, walaupun mencapai prestasi luar biasa dalam domain sempit seperti Go, StarCraft, dan diagnosis perubatan, kekurangan kebolehsuaian dan keupayaan generalisasi kecerdasan manusia. Tesis terasnya ialah pendekatan psikometrik, terutamanya Korpus Penaakulan dan Abstraksi (ARC) yang dicadangkan oleh Chollet, menawarkan laluan yang paling menjanjikan untuk mengesan dan mengukur AGI.
3. Pandangan Utama: Peralihan Paradigma Psikometrik
Pandangan asas kertas kerja ini ialah mengukur AGI memerlukan peralihan paradigma daripada penanda aras khusus tugas kepada rangka kerja psikometrik yang menilai keupayaan kognitif am. Penulis berhujah bahawa penanda aras AI tradisional (cth., bermain permainan, klasifikasi imej) tidak mencukupi kerana ia mengukur prestasi sempit khusus domain dan bukannya kecerdasan am. Pendekatan psikometrik, yang diilhamkan oleh ujian kecerdasan manusia, memberi tumpuan kepada mengukur keupayaan untuk menyelesaikan masalah novel merentas pelbagai domain tanpa latihan khusus tugas.
4. Aliran Logik: Dari AI Sempit ke Kecerdasan Am
Kertas kerja ini mengikuti perkembangan logik yang jelas:
- Pengenalpastian Masalah: Sistem AI semasa adalah sempit dan rapuh, gagal apabila persekitaran menyimpang sedikit daripada keadaan latihan.
- Definisi AGI: Kecerdasan am ditakrifkan sebagai keupayaan untuk melaksanakan tugas merentas pelbagai domain, termasuk yang tidak diketahui pada masa penciptaan.
- Semakan Ujian Sedia Ada: Penulis menilai enam ujian yang dicadangkan oleh Mikhaylovskiy (Penjelasan, Penetapan Masalah, Penolakan, Ramalan Fenomena Baru, Penciptaan Perniagaan, Penciptaan Teori) dan penanda aras ARC oleh Chollet.
- Penilaian Kritikal: Setiap ujian dinilai berdasarkan kriteria termasuk keumuman, objektiviti, skalabiliti, dan ketahanan terhadap manipulasi.
- Cadangan: Pendekatan psikometrik, terutamanya ARC, dikenal pasti sebagai hala tuju yang paling menjanjikan.
5. Kekuatan & Kelemahan: Penilaian Kritikal Ujian AGI
5.1 Kekuatan Pendekatan Psikometrik
- Keumuman: Tugas ARC memerlukan penaakulan tentang corak abstrak, bukan pengetahuan khusus domain.
- Objektiviti: Prestasi diukur melalui kejayaan pada tugas yang tidak dilihat, mengurangkan berat sebelah.
- Skalabiliti: Set data ARC mengandungi 800 tugas, membolehkan analisis statistik yang mantap.
5.2 Kelemahan dan Batasan
- Ujian Mikhaylovskiy: Ujian Penjelasan, Penciptaan Teori, dan Penciptaan Perniagaan terlalu antroposentrik dan sukar untuk diautomasikan secara objektif. Ia memerlukan kreativiti peringkat manusia dan interaksi dunia sebenar, yang mungkin tidak diperlukan untuk AGI.
- Batasan ARC: Walaupun menjanjikan, ARC memberi tumpuan terutamanya pada penaakulan visual dan mungkin tidak menangkap dimensi kecerdasan lain (cth., penaakulan sosial, linguistik, atau fizikal).
- Kekurangan Dinamik Temporal: Kebanyakan ujian adalah statik dan tidak menilai pembelajaran dari semasa ke semasa atau penyesuaian kepada persekitaran yang berubah.
6. Pandangan Boleh Tindak: Hala Tuju Masa Depan
Berdasarkan analisis, kertas kerja mencadangkan beberapa hala tuju yang boleh diambil tindakan:
- Membangunkan Penanda Aras Hibrid: Gabungkan tugas psikometrik dengan persekitaran interaktif dinamik untuk menilai kedua-dua penaakulan dan penyesuaian.
- Menggabungkan Pelbagai Modaliti: Kembangkan ARC untuk merangkumi tugas penaakulan linguistik, auditori, dan fizikal.
- Fokus pada Generalisasi Komposisi: Reka bentuk tugas yang memerlukan penggabungan konsep yang dipelajari dengan cara novel, aspek utama kecerdasan manusia.
- Guna Pakai Pelaporan Piawai: Gunakan metrik psikometrik (cth., kebolehpercayaan, kesahan, teori respons item) untuk memastikan penanda aras adalah ketat secara saintifik.
7. Butiran Teknikal dan Perumusan Matematik
Pendekatan psikometrik untuk pengukuran AGI boleh diformalkan menggunakan Teori Respons Item (IRT). Biarkan $\theta$ mewakili kecerdasan am terpendam agen. Kebarangkalian untuk menyelesaikan tugas $i$ dengan betul dengan kesukaran $b_i$ dan diskriminasi $a_i$ diberikan oleh model logistik:
$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$
Untuk penanda aras ARC, setiap tugas terdiri daripada pasangan grid input-output. Agen mesti membuat inferens tentang transformasi asas $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ daripada beberapa contoh dan menerapkannya pada input baharu. Metrik prestasi adalah ketepatan pada tugas yang diasingkan, diberatkan mengikut kesukaran tugas.
8. Keputusan Eksperimen dan Analisis Penanda Aras
Kertas kerja ini tidak membentangkan eksperimen asal tetapi mengkaji semula keputusan sedia ada. Penemuan utama daripada literatur termasuk:
- Prestasi Manusia pada ARC: Manusia mencapai ketepatan kira-kira 80-90% pada tugas ARC, menunjukkan kebolehlaksanaan penanda aras.
- Prestasi AI: Sistem AI terkini (setakat 2020) mencapai kurang daripada 30% ketepatan pada ARC, menonjolkan jurang antara kecerdasan sempit dan am.
- Perbandingan dengan Penanda Aras Lain: ARC lebih mencabar daripada ujian IQ tradisional untuk AI kerana ia memerlukan penaakulan seperti program dan bukannya padanan corak.
Rajah 1: Carta bar hipotetikal membandingkan prestasi manusia vs. AI pada tugas ARC merentas tahap kesukaran (mudah, sederhana, sukar). Manusia secara konsisten mengatasi AI, dengan jurang yang melebar pada tugas yang lebih sukar.
9. Rangka Kerja Analitikal: Kajian Kes ARC
Untuk menggambarkan pendekatan psikometrik, pertimbangkan tugas ARC di mana input adalah grid 3x3 dengan sel berwarna, dan output adalah grid 3x3 dengan corak yang berbeza. Agen mesti membuat inferens tentang peraturan (cth., "putar corak 90 darjah mengikut arah jam") daripada dua contoh dan menerapkannya pada input ketiga.
Contoh Tugas:
- Input 1: [[0,1,0],[1,0,1],[0,1,0]] → Output 1: [[0,1,0],[1,0,1],[0,1,0]] (tiada perubahan, simetri)
- Input 2: [[1,0,0],[0,1,0],[0,0,1]] → Output 2: [[0,0,1],[0,1,0],[1,0,0]] (terbalik sepanjang anti-diagonal)
- Input Ujian: [[0,0,1],[0,1,0],[1,0,0]] → Output Dijangka: [[1,0,0],[0,1,0],[0,0,1]]
Tugas ini memerlukan agen untuk mengenali peraturan transformasi (terbalik sepanjang anti-diagonal) dan menerapkannya pada corak baharu. Nilai psikometrik terletak pada fakta bahawa peraturan itu adalah abstrak dan tidak terikat pada mana-mana domain tertentu.
10. Aplikasi Masa Depan dan Tinjauan
Pendekatan psikometrik kepada AGI mempunyai beberapa aplikasi yang menjanjikan:
- Keselamatan AI: Penanda aras psikometrik boleh membantu mengesan kegagalan yang tidak dijangka dalam sistem AI dengan menguji generalisasi kepada senario novel.
- Kerjasama Manusia-AI: Memahami profil kognitif AI (cth., kekuatan dalam penaakulan visual vs. linguistik) boleh meningkatkan kerjasama dengan manusia.
- AI Pendidikan: Rangka kerja psikometrik boleh membimbing pembangunan tutor AI yang menyesuaikan diri dengan gaya pembelajaran individu.
- Neurosains: Membandingkan prestasi manusia dan AI pada tugas psikometrik boleh memberi penerangan tentang asas saraf kecerdasan am.
Hala tuju masa depan termasuk mengintegrasikan penanda aras psikometrik dengan persekitaran pembelajaran pengukuhan, membangunkan ujian dinamik yang menyesuaikan diri dengan tahap keupayaan agen, dan mencipta penanda aras multimodal yang menilai penaakulan merentas modaliti deria.
11. Analisis dan Ulasan Asal
Kertas kerja ini membuat hujah yang menarik untuk pendekatan psikometrik kepada AGI, tetapi beberapa perkara kritikal patut diteliti. Pertama, pergantungan pada kecerdasan seperti manusia sebagai piawaian emas boleh dipersoalkan secara falsafah. Seperti yang dihujahkan oleh Bostrom (2014) dalam "Superintelligence," AGI mungkin mempamerkan bentuk kecerdasan yang berbeza secara kualitatif daripada kognisi manusia, menjadikan penanda aras antroposentrik berpotensi mengelirukan. Kedua, penanda aras ARC, walaupun elegan, mungkin terlalu sempit. Seperti yang dinyatakan oleh Lake et al. (2017) dalam "Building Machines That Learn and Think Like People," kecerdasan manusia melibatkan bukan sahaja penaakulan abstrak tetapi juga fizik intuitif, kognisi sosial, dan pemahaman bahasa. Penanda aras kecerdasan am yang benar harus merangkumi dimensi-dimensi ini. Ketiga, kertas kerja mengabaikan potensi ujian adversarial. Seperti yang ditunjukkan oleh Goodfellow et al. (2014) dalam kertas GAN asal, contoh adversarial boleh mendedahkan kelemahan asas dalam sistem AI yang terlepas oleh penanda aras standard. Menggabungkan elemen adversarial ke dalam ujian psikometrik boleh memberikan penilaian generalisasi yang lebih mantap. Akhir sekali, tumpuan kertas kerja pada pengukuran dan bukannya seni bina adalah satu kekuatan, tetapi ia berisiko mengabaikan persoalan tentang cara membina AGI. Seperti yang dihujahkan oleh Yudkowsky (2008), masalah penjajaran memerlukan pemahaman tentang mekanisme dalaman sistem AI, bukan hanya tingkah laku luaran mereka. Walaupun terdapat batasan ini, kertas kerja menyediakan rangka kerja yang berharga untuk berfikir tentang penilaian AGI dan menekankan keperluan untuk penanda aras yang ketat dan sah secara psikometrik.
12. Rujukan
- McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
- Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
- Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
- Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
- Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
- Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
- Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
- Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
- Thomson, W. (1889). Popular Lectures and Addresses.
- Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
- Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
- Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
- Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
- Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
- Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
- Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
- Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
- Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.