Psikometrik Yapay Genel Zeka İçin Argüman

1. İçindekiler

2. Giriş
3. Temel İçgörü: Psikometrik Paradigma Değişimi
4. Mantıksal Akış: Dar Yapay Zekadan Genel Zekaya
5. Güçlü Yönler ve Kusurlar: AGI Testlerinin Eleştirel Değerlendirmesi
6. Uygulanabilir İçgörüler: Gelecek Yönelimler
7. Teknik Detaylar ve Matematiksel Formülasyon
8. Deneysel Sonuçlar ve Kıyaslama Analizi
9. Analitik Çerçeve: ARC Vaka Çalışması
10. Gelecek Uygulamalar ve Görünüm
11. Özgün Analiz ve Yorum
12. Kaynakça

2. Giriş

Mark McPherson (Bournemouth Üniversitesi, 2020) tarafından yazılan "Psikometrik Yapay Genel Zeka İçin Argüman" başlıklı makale, Yapay Genel Zeka'yı (AGI) ölçmek için mevcut kıyaslamaları ve testleri eleştirel bir şekilde incelemektedir. Yazar, Go, StarCraft ve tıbbi teşhis gibi dar alanlarda insanüstü performans elde etmelerine rağmen, mevcut yapay zeka sistemlerinin insan zekasının uyum sağlama ve genelleme yeteneklerinden yoksun olduğunu savunmaktadır. Temel tez, özellikle Chollet tarafından önerilen Soyutlama ve Akıl Yürütme Derlemi'nin (ARC) psikometrik yaklaşımlarının, AGI'yi tespit etmek ve ölçmek için en umut verici yolu sunduğudur.

3. Temel İçgörü: Psikometrik Paradigma Değişimi

Bu makalenin temel içgörüsü, AGI'yi ölçmenin, göreve özgü kıyaslamalardan genel bilişsel yetenekleri değerlendiren psikometrik çerçevelere doğru bir paradigma değişimi gerektirmesidir. Yazar, geleneksel yapay zeka kıyaslamalarının (ör. oyun oynama, görüntü sınıflandırma) yetersiz olduğunu çünkü bunların genel zekadan ziyade dar, alana özgü performansı ölçtüğünü savunmaktadır. İnsan zekası testlerinden ilham alan psikometrik yaklaşım, göreve özgü eğitim olmaksızın çeşitli alanlardaki yeni problemleri çözme yeteneğini ölçmeye odaklanır.

4. Mantıksal Akış: Dar Yapay Zekadan Genel Zekaya

Makale net bir mantıksal ilerleme izler:

Sorun Tanımlaması: Mevcut yapay zeka sistemleri dar ve kırılgandır; ortamlar eğitim koşullarından biraz saptığında başarısız olurlar.
AGI Tanımı: Genel zeka, oluşturulma anında bilinmeyenler de dahil olmak üzere çok sayıda alanda görevleri yerine getirme yeteneği olarak tanımlanır.
Mevcut Testlerin İncelenmesi: Yazar, Mikhaylovskiy tarafından önerilen altı testi (Açıklama, Problem Kurma, Çürütme, Yeni Olgu Tahmini, İş Yaratma, Teori Oluşturma) ve Chollet'in ARC kıyaslamasını değerlendirir.
Eleştirel Değerlendirme: Her test, genellik, nesnellik, ölçeklenebilirlik ve manipülasyona karşı direnç kriterlerine göre değerlendirilir.
Öneri: Psikometrik yaklaşımlar, özellikle ARC, en umut verici yön olarak belirlenmiştir.

5. Güçlü Yönler ve Kusurlar: AGI Testlerinin Eleştirel Değerlendirmesi

5.1 Psikometrik Yaklaşımların Güçlü Yönleri

Genellik: ARC görevleri, alana özgü bilgi değil, soyut kalıplar hakkında akıl yürütme gerektirir.
Nesnellik: Performans, daha önce görülmemiş görevlerdeki başarı ile ölçülür ve bu da önyargıyı azaltır.
Ölçeklenebilirlik: ARC veri seti 800 görev içerir ve bu da sağlam istatistiksel analize olanak tanır.

5.2 Kusurlar ve Sınırlamalar

Mikhaylovskiy'nin Testleri: Açıklama, Teori Oluşturma ve İş Yaratma testleri fazla insan merkezlidir ve nesnel olarak otomatikleştirilmesi zordur. Bunlar, AGI için gerekli olmayabilecek insan düzeyinde yaratıcılık ve gerçek dünya etkileşimi gerektirir.
ARC Sınırlamaları: Umut verici olmakla birlikte, ARC öncelikle görsel akıl yürütmeye odaklanır ve zekanın diğer boyutlarını (ör. sosyal, dilsel veya fiziksel akıl yürütme) yakalamayabilir.
Zamansal Dinamik Eksikliği: Çoğu test statiktir ve zaman içinde öğrenmeyi veya değişen ortamlara uyumu değerlendirmez.

6. Uygulanabilir İçgörüler: Gelecek Yönelimler

Analize dayanarak, makale birkaç uygulanabilir yön önermektedir:

Hibrit Kıyaslamalar Geliştirin: Hem akıl yürütmeyi hem de uyumu değerlendirmek için psikometrik görevleri dinamik, etkileşimli ortamlarla birleştirin.
Birden Çok Modaliteyi Dahil Edin: ARC'yi dilsel, işitsel ve fiziksel akıl yürütme görevlerini içerecek şekilde genişletin.
Bileşimsel Genellemeye Odaklanın: İnsan zekasının önemli bir yönü olan, öğrenilen kavramları yeni yollarla birleştirmeyi gerektiren görevler tasarlayın.
Standartlaştırılmış Raporlamayı Benimseyin: Kıyaslamaların bilimsel olarak titiz olmasını sağlamak için psikometrik metrikler (ör. güvenilirlik, geçerlilik, madde tepki kuramı) kullanın.

7. Teknik Detaylar ve Matematiksel Formülasyon

AGI ölçümüne yönelik psikometrik yaklaşım, Madde Tepki Kuramı (IRT) kullanılarak formüle edilebilir. $ heta$ bir ajanın gizli genel zekasını temsil etsin. Zorluğu $b_i$ ve ayırt ediciliği $a_i$ olan $i$ görevini doğru çözme olasılığı lojistik model ile verilir:

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

ARC kıyaslaması için her görev, girdi-çıktı ızgara çiftlerinden oluşur. Ajan, birkaç örnekten temel dönüşümü $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ çıkarmalı ve bunu yeni bir girdiye uygulamalıdır. Performans metriği, görev zorluğuna göre ağırlıklandırılmış, ayrılmış görevlerdeki doğruluktur.

8. Deneysel Sonuçlar ve Kıyaslama Analizi

Makale özgün deneyler sunmamakta, mevcut sonuçları incelemektedir. Literatürden elde edilen temel bulgular şunları içerir:

ARC'de İnsan Performansı: İnsanlar ARC görevlerinde yaklaşık %80-90 doğruluk elde ederek kıyaslamanın uygulanabilirliğini göstermektedir.
Yapay Zeka Performansı: Mevcut en son teknoloji yapay zeka sistemleri (2020 itibarıyla) ARC'de %30'un altında doğruluk elde ederek dar ve genel zeka arasındaki farkı vurgulamaktadır.
Diğer Kıyaslamalarla Karşılaştırma: ARC, yapay zeka için geleneksel IQ testlerinden daha zorludur çünkü örüntü eşleştirmeden ziyade program benzeri akıl yürütme gerektirir.

Şekil 1: Zorluk seviyelerine (kolay, orta, zor) göre ARC görevlerinde insan ve yapay zeka performansını karşılaştıran varsayımsal bir çubuk grafik. İnsanlar, zor görevlerde farkın açılmasıyla birlikte, yapay zekadan sürekli olarak daha iyi performans gösterir.

9. Analitik Çerçeve: ARC Vaka Çalışması

Psikometrik yaklaşımı göstermek için, girdinin renkli hücrelerden oluşan 3x3'lük bir ızgara olduğu ve çıktının farklı bir desene sahip 3x3'lük bir ızgara olduğu bir ARC görevini ele alalım. Ajan, iki örnekten kuralı (ör. "deseni saat yönünde 90 derece döndür") çıkarmalı ve bunu üçüncü bir girdiye uygulamalıdır.

Örnek Görev:

Girdi 1: [[0,1,0],[1,0,1],[0,1,0]] → Çıktı 1: [[0,1,0],[1,0,1],[0,1,0]] (değişiklik yok, simetri)
Girdi 2: [[1,0,0],[0,1,0],[0,0,1]] → Çıktı 2: [[0,0,1],[0,1,0],[1,0,0]] (ters köşegen boyunca çevir)
Test Girdisi: [[0,0,1],[0,1,0],[1,0,0]] → Beklenen Çıktı: [[1,0,0],[0,1,0],[0,0,1]]

Bu görev, ajanın dönüşüm kuralını (ters köşegen boyunca çevir) tanımasını ve bunu yeni bir desene uygulamasını gerektirir. Psikometrik değer, kuralın soyut olması ve belirli bir alana bağlı olmaması gerçeğinde yatmaktadır.

10. Gelecek Uygulamalar ve Görünüm

AGI'ye yönelik psikometrik yaklaşımın birkaç umut verici uygulaması vardır:

Yapay Zeka Güvenliği: Psikometrik kıyaslamalar, yeni senaryolara genellemeyi test ederek yapay zeka sistemlerindeki beklenmedik başarısızlıkların tespit edilmesine yardımcı olabilir.
İnsan-Yapay Zeka İşbirliği: Bir yapay zekanın bilişsel profilini (ör. görsel ve dilsel akıl yürütmedeki güçlü yönler) anlamak, insanlarla ekip çalışmasını geliştirebilir.
Eğitimsel Yapay Zeka: Psikometrik çerçeveler, bireysel öğrenme stillerine uyum sağlayan yapay zeka öğretmenlerinin geliştirilmesine rehberlik edebilir.
Sinirbilim: İnsan ve yapay zeka performansını psikometrik görevlerde karşılaştırmak, genel zekanın sinirsel temeline ışık tutabilir.

Gelecek yönelimler arasında psikometrik kıyaslamaların pekiştirmeli öğrenme ortamlarıyla entegre edilmesi, ajanın yetenek seviyesine uyum sağlayan dinamik testler geliştirilmesi ve duyusal modaliteler arasında akıl yürütmeyi değerlendiren çok modlu kıyaslamalar oluşturulması yer almaktadır.

11. Özgün Analiz ve Yorum

Makale, AGI'ye yönelik psikometrik yaklaşımlar için ikna edici bir argüman sunmaktadır, ancak birkaç kritik nokta incelemeyi hak etmektedir. İlk olarak, altın standart olarak insan benzeri zekaya güvenmek felsefi olarak sorgulanabilir. Bostrom'un (2014) "Süperzeka"da tartıştığı gibi, AGI, insan bilişinden niteliksel olarak farklı zeka biçimleri sergileyebilir ve bu da insan merkezli kıyaslamaları potansiyel olarak yanıltıcı hale getirebilir. İkinci olarak, ARC kıyaslaması zarif olmakla birlikte çok dar olabilir. Lake ve diğerlerinin (2017) "İnsanlar Gibi Öğrenen ve Düşünen Makineler İnşa Etmek"te belirttiği gibi, insan zekası yalnızca soyut akıl yürütmeyi değil, aynı zamanda sezgisel fiziği, sosyal bilişi ve dil anlayışını da içerir. Gerçekten genel bir zeka kıyaslaması bu boyutları kapsamalıdır. Üçüncü olarak, makale düşmanca testlerin potansiyelini göz ardı etmektedir. Goodfellow ve diğerlerinin (2014) orijinal GAN makalesinde gösterdiği gibi, düşmanca örnekler, standart kıyaslamaların gözden kaçırdığı yapay zeka sistemlerindeki temel zayıflıkları ortaya çıkarabilir. Psikometrik testlere düşmanca unsurların dahil edilmesi, genellemenin daha sağlam bir değerlendirmesini sağlayabilir. Son olarak, makalenin mimariden ziyade ölçüme odaklanması bir güçtür, ancak AGI'nin nasıl inşa edileceği sorusunu göz ardı etme riski taşır. Yudkowsky'nin (2008) savunduğu gibi, uyum sorunu, yapay zeka sistemlerinin yalnızca dışsal davranışlarını değil, içsel mekanizmalarını anlamayı gerektirir. Bu sınırlamalara rağmen, makale AGI değerlendirmesi hakkında düşünmek için değerli bir çerçeve sunmakta ve haklı olarak titiz, psikometrik olarak geçerli kıyaslamalara olan ihtiyacı vurgulamaktadır.

12. Kaynakça

McCarthy, J., ve diğerleri. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
Silver, D., ve diğerleri. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
Vinyals, O., ve diğerleri. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
Krizhevsky, A., ve diğerleri. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
Vaswani, A., ve diğerleri. (2017). Attention is all you need. NeurIPS.
Esteva, A., ve diğerleri. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
Thomson, W. (1889). Popular Lectures and Addresses.
Adams, S., ve diğerleri. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
Lake, B. M., ve diğerleri. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
Goodfellow, I., ve diğerleri. (2014). Generative adversarial nets. NeurIPS.
Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.