Pilih Bahasa

Hujah untuk Kecerdasan Am Psikometrik Buatan

Kajian kritikal terhadap penanda aras dan ujian AGI, mencadangkan pendekatan psikometrik untuk mengukur kecerdasan am dalam sistem AI.
agi-friend.com | PDF Size: 0.1 MB
Penilaian: 4.5/5
Penilaian Anda
Anda sudah menilai dokumen ini
Sampul Dokumen PDF - Hujah untuk Kecerdasan Am Psikometrik Buatan

1. Jadual Kandungan

2. Pengenalan

Kertas kerja "Hujah untuk Kecerdasan Am Psikometrik Buatan" oleh Mark McPherson (Universiti Bournemouth, 2020) mengkaji secara kritis penanda aras dan ujian sedia ada untuk mengukur Kecerdasan Am Buatan (AGI). Penulis berhujah bahawa sistem AI semasa, walaupun mencapai prestasi luar biasa dalam domain sempit seperti Go, StarCraft, dan diagnosis perubatan, kekurangan kebolehsuaian dan keupayaan generalisasi kecerdasan manusia. Tesis terasnya ialah pendekatan psikometrik, terutamanya Korpus Penaakulan dan Abstraksi (ARC) yang dicadangkan oleh Chollet, menawarkan laluan yang paling menjanjikan untuk mengesan dan mengukur AGI.

3. Pandangan Utama: Peralihan Paradigma Psikometrik

Pandangan asas kertas kerja ini ialah mengukur AGI memerlukan peralihan paradigma daripada penanda aras khusus tugas kepada rangka kerja psikometrik yang menilai keupayaan kognitif am. Penulis berhujah bahawa penanda aras AI tradisional (cth., bermain permainan, klasifikasi imej) tidak mencukupi kerana ia mengukur prestasi sempit khusus domain dan bukannya kecerdasan am. Pendekatan psikometrik, yang diilhamkan oleh ujian kecerdasan manusia, memberi tumpuan kepada mengukur keupayaan untuk menyelesaikan masalah novel merentas pelbagai domain tanpa latihan khusus tugas.

4. Aliran Logik: Dari AI Sempit ke Kecerdasan Am

Kertas kerja ini mengikuti perkembangan logik yang jelas:

  1. Pengenalpastian Masalah: Sistem AI semasa adalah sempit dan rapuh, gagal apabila persekitaran menyimpang sedikit daripada keadaan latihan.
  2. Definisi AGI: Kecerdasan am ditakrifkan sebagai keupayaan untuk melaksanakan tugas merentas pelbagai domain, termasuk yang tidak diketahui pada masa penciptaan.
  3. Semakan Ujian Sedia Ada: Penulis menilai enam ujian yang dicadangkan oleh Mikhaylovskiy (Penjelasan, Penetapan Masalah, Penolakan, Ramalan Fenomena Baru, Penciptaan Perniagaan, Penciptaan Teori) dan penanda aras ARC oleh Chollet.
  4. Penilaian Kritikal: Setiap ujian dinilai berdasarkan kriteria termasuk keumuman, objektiviti, skalabiliti, dan ketahanan terhadap manipulasi.
  5. Cadangan: Pendekatan psikometrik, terutamanya ARC, dikenal pasti sebagai hala tuju yang paling menjanjikan.

5. Kekuatan & Kelemahan: Penilaian Kritikal Ujian AGI

5.1 Kekuatan Pendekatan Psikometrik

5.2 Kelemahan dan Batasan

6. Pandangan Boleh Tindak: Hala Tuju Masa Depan

Berdasarkan analisis, kertas kerja mencadangkan beberapa hala tuju yang boleh diambil tindakan:

7. Butiran Teknikal dan Perumusan Matematik

Pendekatan psikometrik untuk pengukuran AGI boleh diformalkan menggunakan Teori Respons Item (IRT). Biarkan $\theta$ mewakili kecerdasan am terpendam agen. Kebarangkalian untuk menyelesaikan tugas $i$ dengan betul dengan kesukaran $b_i$ dan diskriminasi $a_i$ diberikan oleh model logistik:

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

Untuk penanda aras ARC, setiap tugas terdiri daripada pasangan grid input-output. Agen mesti membuat inferens tentang transformasi asas $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ daripada beberapa contoh dan menerapkannya pada input baharu. Metrik prestasi adalah ketepatan pada tugas yang diasingkan, diberatkan mengikut kesukaran tugas.

8. Keputusan Eksperimen dan Analisis Penanda Aras

Kertas kerja ini tidak membentangkan eksperimen asal tetapi mengkaji semula keputusan sedia ada. Penemuan utama daripada literatur termasuk:

Rajah 1: Carta bar hipotetikal membandingkan prestasi manusia vs. AI pada tugas ARC merentas tahap kesukaran (mudah, sederhana, sukar). Manusia secara konsisten mengatasi AI, dengan jurang yang melebar pada tugas yang lebih sukar.

9. Rangka Kerja Analitikal: Kajian Kes ARC

Untuk menggambarkan pendekatan psikometrik, pertimbangkan tugas ARC di mana input adalah grid 3x3 dengan sel berwarna, dan output adalah grid 3x3 dengan corak yang berbeza. Agen mesti membuat inferens tentang peraturan (cth., "putar corak 90 darjah mengikut arah jam") daripada dua contoh dan menerapkannya pada input ketiga.

Contoh Tugas:

Tugas ini memerlukan agen untuk mengenali peraturan transformasi (terbalik sepanjang anti-diagonal) dan menerapkannya pada corak baharu. Nilai psikometrik terletak pada fakta bahawa peraturan itu adalah abstrak dan tidak terikat pada mana-mana domain tertentu.

10. Aplikasi Masa Depan dan Tinjauan

Pendekatan psikometrik kepada AGI mempunyai beberapa aplikasi yang menjanjikan:

Hala tuju masa depan termasuk mengintegrasikan penanda aras psikometrik dengan persekitaran pembelajaran pengukuhan, membangunkan ujian dinamik yang menyesuaikan diri dengan tahap keupayaan agen, dan mencipta penanda aras multimodal yang menilai penaakulan merentas modaliti deria.

11. Analisis dan Ulasan Asal

Kertas kerja ini membuat hujah yang menarik untuk pendekatan psikometrik kepada AGI, tetapi beberapa perkara kritikal patut diteliti. Pertama, pergantungan pada kecerdasan seperti manusia sebagai piawaian emas boleh dipersoalkan secara falsafah. Seperti yang dihujahkan oleh Bostrom (2014) dalam "Superintelligence," AGI mungkin mempamerkan bentuk kecerdasan yang berbeza secara kualitatif daripada kognisi manusia, menjadikan penanda aras antroposentrik berpotensi mengelirukan. Kedua, penanda aras ARC, walaupun elegan, mungkin terlalu sempit. Seperti yang dinyatakan oleh Lake et al. (2017) dalam "Building Machines That Learn and Think Like People," kecerdasan manusia melibatkan bukan sahaja penaakulan abstrak tetapi juga fizik intuitif, kognisi sosial, dan pemahaman bahasa. Penanda aras kecerdasan am yang benar harus merangkumi dimensi-dimensi ini. Ketiga, kertas kerja mengabaikan potensi ujian adversarial. Seperti yang ditunjukkan oleh Goodfellow et al. (2014) dalam kertas GAN asal, contoh adversarial boleh mendedahkan kelemahan asas dalam sistem AI yang terlepas oleh penanda aras standard. Menggabungkan elemen adversarial ke dalam ujian psikometrik boleh memberikan penilaian generalisasi yang lebih mantap. Akhir sekali, tumpuan kertas kerja pada pengukuran dan bukannya seni bina adalah satu kekuatan, tetapi ia berisiko mengabaikan persoalan tentang cara membina AGI. Seperti yang dihujahkan oleh Yudkowsky (2008), masalah penjajaran memerlukan pemahaman tentang mekanisme dalaman sistem AI, bukan hanya tingkah laku luaran mereka. Walaupun terdapat batasan ini, kertas kerja menyediakan rangka kerja yang berharga untuk berfikir tentang penilaian AGI dan menekankan keperluan untuk penanda aras yang ketat dan sah secara psikometrik.

12. Rujukan

  1. McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
  2. Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
  3. Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
  4. Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
  5. Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
  6. Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
  7. Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
  8. Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
  9. Thomson, W. (1889). Popular Lectures and Addresses.
  10. Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
  11. Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
  12. Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
  13. Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
  14. Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
  15. Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
  16. Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
  17. Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
  18. Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.