Обоснование психометрического искусственного общего интеллекта

1. Содержание

2. Введение
3. Ключевая идея: Психометрический сдвиг парадигмы
4. Логическая последовательность: От узкого ИИ к общему интеллекту
5. Сильные стороны и недостатки: Критическая оценка тестов ИОИ
6. Практические выводы: Будущие направления
7. Технические детали и математическая формулировка
8. Экспериментальные результаты и анализ бенчмарков
9. Аналитическая структура: Пример ARC
10. Будущие применения и перспективы
11. Оригинальный анализ и комментарии
12. Список литературы

2. Введение

Статья «Обоснование психометрического искусственного общего интеллекта» Марка Макферсона (Университет Борнмута, 2020) представляет критический обзор существующих бенчмарков и тестов для измерения искусственного общего интеллекта (ИОИ). Автор утверждает, что современные системы ИИ, несмотря на достижение сверхчеловеческой производительности в узких областях, таких как Go, StarCraft и медицинская диагностика, лишены адаптивности и способности к обобщению, присущих человеческому интеллекту. Основной тезис заключается в том, что психометрические подходы, в частности Корпус абстракции и рассуждений (ARC), предложенный Шолле, предлагают наиболее перспективный путь для обнаружения и измерения ИОИ.

3. Ключевая идея: Психометрический сдвиг парадигмы

Фундаментальная идея этой статьи заключается в том, что измерение ИОИ требует сдвига парадигмы от предметно-ориентированных бенчмарков к психометрическим структурам, оценивающим общие когнитивные способности. Автор утверждает, что традиционные бенчмарки ИИ (например, игры, классификация изображений) недостаточны, поскольку они измеряют узкую, специфичную для предметной области производительность, а не общий интеллект. Психометрический подход, вдохновленный тестированием человеческого интеллекта, фокусируется на измерении способности решать новые задачи в различных областях без специального обучения.

4. Логическая последовательность: От узкого ИИ к общему интеллекту

Статья следует четкой логической последовательности:

Выявление проблемы: Современные системы ИИ узки и хрупки, они терпят неудачу, когда среда незначительно отклоняется от условий обучения.
Определение ИОИ: Общий интеллект определяется как способность выполнять задачи во множестве областей, включая те, которые были неизвестны на момент создания.
Обзор существующих тестов: Автор оценивает шесть предложенных тестов Михайловского (Объяснение, Постановка задачи, Опровержение, Предсказание нового явления, Создание бизнеса, Создание теории) и бенчмарк ARC Шолле.
Критическая оценка: Каждый тест оценивается по критериям, включая общность, объективность, масштабируемость и устойчивость к «взлому».
Рекомендация: Психометрические подходы, особенно ARC, определены как наиболее перспективное направление.

5. Сильные стороны и недостатки: Критическая оценка тестов ИОИ

5.1 Сильные стороны психометрических подходов

Общность: Задачи ARC требуют рассуждения об абстрактных паттернах, а не знания предметной области.
Объективность: Производительность измеряется успешностью на невиданных ранее задачах, что снижает предвзятость.
Масштабируемость: Набор данных ARC содержит 800 задач, что позволяет проводить надежный статистический анализ.

5.2 Недостатки и ограничения

Тесты Михайловского: Тесты на объяснение, создание теории и создание бизнеса слишком антропоцентричны и сложны для объективной автоматизации. Они требуют творческих способностей на уровне человека и взаимодействия с реальным миром, что может быть необязательно для ИОИ.
Ограничения ARC: Хотя ARC и перспективен, он в первую очередь фокусируется на визуальном мышлении и может не охватывать другие аспекты интеллекта (например, социальное, лингвистическое или физическое мышление).
Отсутствие временной динамики: Большинство тестов статичны и не оценивают обучение с течением времени или адаптацию к изменяющейся среде.

6. Практические выводы: Будущие направления

Основываясь на анализе, статья предлагает несколько практических направлений:

Разработка гибридных бенчмарков: Объединение психометрических задач с динамическими, интерактивными средами для оценки как рассуждения, так и адаптации.
Включение нескольких модальностей: Расширение ARC для включения лингвистических, слуховых и физических задач на рассуждение.
Фокус на композиционном обобщении: Разработка задач, требующих комбинирования изученных концепций новыми способами, что является ключевым аспектом человеческого интеллекта.
Принятие стандартизированной отчетности: Использование психометрических метрик (например, надежность, валидность, теория ответов на пункты) для обеспечения научной строгости бенчмарков.

7. Технические детали и математическая формулировка

Психометрический подход к измерению ИОИ может быть формализован с использованием теории ответов на пункты (IRT). Пусть $\theta$ представляет латентный общий интеллект агента. Вероятность правильного решения задачи $i$ со сложностью $b_i$ и дискриминативностью $a_i$ задается логистической моделью:

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

Для бенчмарка ARC каждая задача состоит из пар входных и выходных сеток. Агент должен вывести лежащее в основе преобразование $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ из нескольких примеров и применить его к новому входу. Метрикой производительности является точность на неиспользованных задачах, взвешенная по сложности задачи.

8. Экспериментальные результаты и анализ бенчмарков

Статья не представляет оригинальных экспериментов, а рассматривает существующие результаты. Ключевые выводы из литературы включают:

Производительность человека на ARC: Люди достигают примерно 80-90% точности на задачах ARC, что демонстрирует реализуемость бенчмарка.
Производительность ИИ: Современные системы ИИ (по состоянию на 2020 год) достигают менее 30% точности на ARC, что подчеркивает разрыв между узким и общим интеллектом.
Сравнение с другими бенчмарками: ARC является более сложным, чем традиционные тесты IQ для ИИ, поскольку требует программо-подобных рассуждений, а не сопоставления с образцом.

Рисунок 1: Гипотетическая столбчатая диаграмма, сравнивающая производительность человека и ИИ на задачах ARC по уровням сложности (легкий, средний, сложный). Люди последовательно превосходят ИИ, причем разрыв увеличивается на более сложных задачах.

9. Аналитическая структура: Пример ARC

Чтобы проиллюстрировать психометрический подход, рассмотрим задачу ARC, где входом является сетка 3x3 с цветными ячейками, а выходом — сетка 3x3 с другим паттерном. Агент должен вывести правило (например, «повернуть паттерн на 90 градусов по часовой стрелке») из двух примеров и применить его к третьему входу.

Пример задачи:

Вход 1: [[0,1,0],[1,0,1],[0,1,0]] → Выход 1: [[0,1,0],[1,0,1],[0,1,0]] (без изменений, симметрия)
Вход 2: [[1,0,0],[0,1,0],[0,0,1]] → Выход 2: [[0,0,1],[0,1,0],[1,0,0]] (отражение по антидиагонали)
Тестовый вход: [[0,0,1],[0,1,0],[1,0,0]] → Ожидаемый выход: [[1,0,0],[0,1,0],[0,0,1]]

Эта задача требует от агента распознать правило преобразования (отражение по антидиагонали) и применить его к новому паттерну. Психометрическая ценность заключается в том, что правило является абстрактным и не привязано к какой-либо конкретной области.

10. Будущие применения и перспективы

Психометрический подход к ИОИ имеет несколько многообещающих применений:

Безопасность ИИ: Психометрические бенчмарки могут помочь обнаружить неожиданные сбои в системах ИИ путем тестирования обобщения на новые сценарии.
Взаимодействие человека и ИИ: Понимание когнитивного профиля ИИ (например, сильные стороны в визуальном или лингвистическом мышлении) может улучшить совместную работу с людьми.
Образовательный ИИ: Психометрические структуры могут направлять разработку ИИ-тьюторов, которые адаптируются к индивидуальным стилям обучения.
Нейронаука: Сравнение производительности человека и ИИ на психометрических задачах может пролить свет на нейронную основу общего интеллекта.

Будущие направления включают интеграцию психометрических бенчмарков со средами обучения с подкреплением, разработку динамических тестов, адаптирующихся к уровню способностей агента, и создание мультимодальных бенчмарков, оценивающих рассуждение через сенсорные модальности.

11. Оригинальный анализ и комментарии

Статья убедительно обосновывает психометрические подходы к ИОИ, но несколько критических моментов заслуживают внимания. Во-первых, опора на человеческий интеллект как на золотой стандарт философски сомнительна. Как утверждает Бостром (2014) в «Сверхинтеллекте», ИОИ может проявлять формы интеллекта, качественно отличные от человеческого познания, что делает антропоцентричные бенчмарки потенциально вводящими в заблуждение. Во-вторых, бенчмарк ARC, хотя и элегантен, может быть слишком узким. Как отмечают Лейк и др. (2017) в статье «Создание машин, которые учатся и думают как люди», человеческий интеллект включает не только абстрактное мышление, но также интуитивную физику, социальное познание и понимание языка. Действительно общий бенчмарк интеллекта должен охватывать эти аспекты. В-третьих, в статье упускается потенциал состязательного тестирования. Как показали Гудфеллоу и др. (2014) в оригинальной статье о GAN, состязательные примеры могут выявить фундаментальные слабости в системах ИИ, которые стандартные бенчмарки пропускают. Включение состязательных элементов в психометрические тесты могло бы обеспечить более надежную оценку обобщения. Наконец, фокус статьи на измерении, а не на архитектуре, является сильной стороной, но он рискует игнорировать вопрос о том, как построить ИОИ. Как утверждает Юдковски (2008), проблема выравнивания требует понимания внутренних механизмов систем ИИ, а не только их внешнего поведения. Несмотря на эти ограничения, статья предоставляет ценную основу для размышлений об оценке ИОИ и справедливо подчеркивает необходимость строгих, психометрически валидных бенчмарков.

12. Список литературы

McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
Thomson, W. (1889). Popular Lectures and Addresses.
Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.