Das Plädoyer für Psychometrische Künstliche Allgemeine Intelligenz

1. Inhaltsverzeichnis

2. Einleitung
3. Kernaussage: Der psychometrische Paradigmenwechsel
4. Logischer Ablauf: Von spezialisierter KI zu allgemeiner Intelligenz
5. Stärken und Schwächen: Kritische Bewertung von AGI-Tests
6. Handlungsorientierte Erkenntnisse: Zukünftige Richtungen
7. Technische Details und mathematische Formulierung
8. Experimentelle Ergebnisse und Benchmark-Analyse
9. Analytischer Rahmen: Fallstudie zu ARC
10. Zukünftige Anwendungen und Ausblick
11. Ursprüngliche Analyse und Kommentar
12. Referenzen

2. Einleitung

Das Papier „Das Plädoyer für Psychometrische Künstliche Allgemeine Intelligenz“ von Mark McPherson (Bournemouth University, 2020) bewertet kritisch bestehende Benchmarks und Tests zur Messung Künstlicher Allgemeiner Intelligenz (AGI). Der Autor argumentiert, dass aktuelle KI-Systeme trotz übermenschlicher Leistungen in spezifischen Bereichen wie Go, StarCraft und medizinischer Diagnostik nicht über die Anpassungsfähigkeit und Generalisierungsfähigkeit menschlicher Intelligenz verfügen. Die Kernaussage ist, dass psychometrische Ansätze, insbesondere das von Chollet vorgeschlagene Abstraction and Reasoning Corpus (ARC), den vielversprechendsten Weg zur Erkennung und Messung von AGI bieten.

3. Kernaussage: Der psychometrische Paradigmenwechsel

Die grundlegende Erkenntnis dieses Papiers ist, dass die Messung von AGI einen Paradigmenwechsel von aufgabenspezifischen Benchmarks hin zu psychometrischen Rahmenwerken erfordert, die allgemeine kognitive Fähigkeiten bewerten. Der Autor argumentiert, dass traditionelle KI-Benchmarks (z. B. Spielen, Bildklassifikation) unzureichend sind, da sie enge, domänenspezifische Leistungen messen und nicht allgemeine Intelligenz. Der psychometrische Ansatz, inspiriert von menschlichen Intelligenztests, konzentriert sich auf die Messung der Fähigkeit, neuartige Probleme in verschiedenen Bereichen ohne aufgabenspezifisches Training zu lösen.

4. Logischer Ablauf: Von spezialisierter KI zu allgemeiner Intelligenz

Das Papier folgt einer klaren logischen Abfolge:

Problemidentifikation: Aktuelle KI-Systeme sind spezialisiert und störanfällig; sie versagen, wenn die Umgebungen geringfügig von den Trainingsbedingungen abweichen.
Definition von AGI: Allgemeine Intelligenz wird definiert als die Fähigkeit, Aufgaben in zahlreichen Bereichen auszuführen, einschließlich solcher, die zum Zeitpunkt der Erstellung unbekannt waren.
Überprüfung bestehender Tests: Der Autor bewertet sechs von Mikhaylovskiy vorgeschlagene Tests (Erklärung, Problemstellung, Widerlegung, Vorhersage neuer Phänomene, Unternehmensgründung, Theoriebildung) und Chollets ARC-Benchmark.
Kritische Bewertung: Jeder Test wird anhand von Kriterien wie Allgemeingültigkeit, Objektivität, Skalierbarkeit und Resistenz gegen Manipulation bewertet.
Empfehlung: Psychometrische Ansätze, insbesondere ARC, werden als die vielversprechendste Richtung identifiziert.

5. Stärken und Schwächen: Kritische Bewertung von AGI-Tests

5.1 Stärken psychometrischer Ansätze

Allgemeingültigkeit: ARC-Aufgaben erfordern das Denken über abstrakte Muster, nicht über domänenspezifisches Wissen.
Objektivität: Die Leistung wird durch den Erfolg bei unbekannten Aufgaben gemessen, was Verzerrungen reduziert.
Skalierbarkeit: Der ARC-Datensatz enthält 800 Aufgaben, was eine robuste statistische Analyse ermöglicht.

5.2 Schwächen und Einschränkungen

Mikhaylovskiys Tests: Die Tests zu Erklärung, Theoriebildung und Unternehmensgründung sind zu anthropozentrisch und schwer objektiv zu automatisieren. Sie erfordern menschliche Kreativität und reale Interaktion, die für AGI möglicherweise nicht notwendig sind.
ARC-Einschränkungen: Obwohl vielversprechend, konzentriert sich ARC hauptsächlich auf visuelles Denken und erfasst möglicherweise nicht andere Dimensionen der Intelligenz (z. B. soziale, sprachliche oder physikalische Schlussfolgerungen).
Fehlende zeitliche Dynamik: Die meisten Tests sind statisch und bewerten weder das Lernen über die Zeit noch die Anpassung an sich ändernde Umgebungen.

6. Handlungsorientierte Erkenntnisse: Zukünftige Richtungen

Basierend auf der Analyse schlägt das Papier mehrere handlungsorientierte Richtungen vor:

Entwicklung hybrider Benchmarks: Kombination psychometrischer Aufgaben mit dynamischen, interaktiven Umgebungen, um sowohl Denken als auch Anpassung zu bewerten.
Einbeziehung mehrerer Modalitäten: Erweiterung von ARC um sprachliche, auditive und physikalische Denkaufgaben.
Fokus auf kompositionelle Generalisierung: Entwicklung von Aufgaben, die die Kombination gelernter Konzepte auf neuartige Weise erfordern, ein Schlüsselaspekt menschlicher Intelligenz.
Einführung standardisierter Berichterstattung: Verwendung psychometrischer Metriken (z. B. Reliabilität, Validität, Item-Response-Theorie), um die wissenschaftliche Strenge der Benchmarks sicherzustellen.

7. Technische Details und mathematische Formulierung

Der psychometrische Ansatz zur AGI-Messung kann mithilfe der Item-Response-Theorie (IRT) formalisiert werden. Sei $\theta$ die latente allgemeine Intelligenz eines Agenten. Die Wahrscheinlichkeit, Aufgabe $i$ mit Schwierigkeit $b_i$ und Diskrimination $a_i$ korrekt zu lösen, ist durch das logistische Modell gegeben:

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

Für den ARC-Benchmark besteht jede Aufgabe aus Eingabe-Ausgabe-Gitterpaaren. Der Agent muss die zugrunde liegende Transformation $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ aus wenigen Beispielen ableiten und auf eine neue Eingabe anwenden. Die Leistungsmetrik ist die Genauigkeit bei zurückgehaltenen Aufgaben, gewichtet nach Aufgabenschwierigkeit.

8. Experimentelle Ergebnisse und Benchmark-Analyse

Das Papier präsentiert keine eigenen Experimente, sondern überprüft bestehende Ergebnisse. Wichtige Erkenntnisse aus der Literatur umfassen:

Menschliche Leistung bei ARC: Menschen erreichen etwa 80-90 % Genauigkeit bei ARC-Aufgaben, was die Durchführbarkeit des Benchmarks demonstriert.
KI-Leistung: Aktuelle KI-Systeme (Stand 2020) erreichen weniger als 30 % Genauigkeit bei ARC, was die Kluft zwischen spezialisierter und allgemeiner Intelligenz verdeutlicht.
Vergleich mit anderen Benchmarks: ARC ist anspruchsvoller als traditionelle IQ-Tests für KI, da es programmähnliches Denken anstelle von Mustererkennung erfordert.

Abbildung 1: Ein hypothetisches Balkendiagramm, das die menschliche vs. KI-Leistung bei ARC-Aufgaben über Schwierigkeitsgrade (einfach, mittel, schwer) hinweg vergleicht. Menschen übertreffen KI durchgängig, wobei die Kluft bei schwierigeren Aufgaben größer wird.

9. Analytischer Rahmen: Fallstudie zu ARC

Zur Veranschaulichung des psychometrischen Ansatzes betrachten wir eine ARC-Aufgabe, bei der die Eingabe ein 3x3-Gitter mit farbigen Zellen ist und die Ausgabe ein 3x3-Gitter mit einem anderen Muster. Der Agent muss die Regel (z. B. „Muster um 90 Grad im Uhrzeigersinn drehen“) aus zwei Beispielen ableiten und auf eine dritte Eingabe anwenden.

Beispielaufgabe:

Eingabe 1: [[0,1,0],[1,0,1],[0,1,0]] → Ausgabe 1: [[0,1,0],[1,0,1],[0,1,0]] (keine Änderung, Symmetrie)
Eingabe 2: [[1,0,0],[0,1,0],[0,0,1]] → Ausgabe 2: [[0,0,1],[0,1,0],[1,0,0]] (Spiegelung entlang der Anti-Diagonale)
Testeingabe: [[0,0,1],[0,1,0],[1,0,0]] → Erwartete Ausgabe: [[1,0,0],[0,1,0],[0,0,1]]

Diese Aufgabe erfordert, dass der Agent die Transformationsregel (Spiegelung entlang der Anti-Diagonale) erkennt und auf ein neues Muster anwendet. Der psychometrische Wert liegt darin, dass die Regel abstrakt und an keine bestimmte Domäne gebunden ist.

10. Zukünftige Anwendungen und Ausblick

Der psychometrische Ansatz für AGI hat mehrere vielversprechende Anwendungen:

KI-Sicherheit: Psychometrische Benchmarks können helfen, unerwartete Fehler in KI-Systemen zu erkennen, indem sie die Generalisierung auf neuartige Szenarien testen.
Mensch-KI-Zusammenarbeit: Das Verständnis des kognitiven Profils einer KI (z. B. Stärken im visuellen vs. sprachlichen Denken) kann die Teamarbeit mit Menschen verbessern.
Bildungs-KI: Psychometrische Rahmenwerke können die Entwicklung von KI-Tutoren leiten, die sich an individuelle Lernstile anpassen.
Neurowissenschaften: Der Vergleich menschlicher und KI-Leistung bei psychometrischen Aufgaben kann Aufschluss über die neuronalen Grundlagen allgemeiner Intelligenz geben.

Zukünftige Richtungen umfassen die Integration psychometrischer Benchmarks mit Verstärkungslernumgebungen, die Entwicklung dynamischer Tests, die sich an das Fähigkeitsniveau des Agenten anpassen, und die Erstellung multimodaler Benchmarks, die das Denken über sensorische Modalitäten hinweg bewerten.

11. Ursprüngliche Analyse und Kommentar

Das Papier macht ein überzeugendes Argument für psychometrische Ansätze für AGI, aber mehrere kritische Punkte verdienen eine genauere Betrachtung. Erstens ist die Abhängigkeit von menschenähnlicher Intelligenz als Goldstandard philosophisch fragwürdig. Wie von Bostrom (2014) in „Superintelligenz“ argumentiert, könnte AGI Formen von Intelligenz aufweisen, die sich qualitativ von menschlicher Kognition unterscheiden, was anthropozentrische Benchmarks potenziell irreführend macht. Zweitens könnte der ARC-Benchmark, obwohl elegant, zu eng gefasst sein. Wie von Lake et al. (2017) in „Maschinen bauen, die wie Menschen lernen und denken“ festgestellt, umfasst menschliche Intelligenz nicht nur abstraktes Denken, sondern auch intuitive Physik, soziale Kognition und Sprachverständnis. Ein wirklich allgemeiner Intelligenz-Benchmark sollte diese Dimensionen einschließen. Drittens übersieht das Papier das Potenzial adversarialer Tests. Wie von Goodfellow et al. (2014) im ursprünglichen GAN-Papier demonstriert, können adversariale Beispiele grundlegende Schwächen in KI-Systemen aufdecken, die Standard-Benchmarks übersehen. Die Einbeziehung adversarialer Elemente in psychometrische Tests könnte eine robustere Bewertung der Generalisierung ermöglichen. Schließlich ist der Fokus des Papiers auf Messung statt Architektur eine Stärke, birgt jedoch das Risiko, die Frage zu ignorieren, wie AGI gebaut werden kann. Wie Yudkowsky (2008) argumentiert, erfordert das Alignment-Problem das Verständnis der internen Mechanismen von KI-Systemen, nicht nur ihres externen Verhaltens. Trotz dieser Einschränkungen bietet das Papier einen wertvollen Rahmen für das Nachdenken über die AGI-Bewertung und betont zu Recht die Notwendigkeit strenger, psychometrisch valider Benchmarks.

12. Referenzen

McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
Thomson, W. (1889). Popular Lectures and Addresses.
Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.