1. Содержание
- 2. Введение
- 3. Ключевая идея: Психометрический сдвиг парадигмы
- 4. Логическая последовательность: От узкого ИИ к общему интеллекту
- 5. Сильные стороны и недостатки: Критическая оценка тестов ИОИ
- 6. Практические выводы: Будущие направления
- 7. Технические детали и математическая формулировка
- 8. Экспериментальные результаты и анализ бенчмарков
- 9. Аналитическая структура: Пример ARC
- 10. Будущие применения и перспективы
- 11. Оригинальный анализ и комментарии
- 12. Список литературы
2. Введение
Статья «Обоснование психометрического искусственного общего интеллекта» Марка Макферсона (Университет Борнмута, 2020) представляет критический обзор существующих бенчмарков и тестов для измерения искусственного общего интеллекта (ИОИ). Автор утверждает, что современные системы ИИ, несмотря на достижение сверхчеловеческой производительности в узких областях, таких как Go, StarCraft и медицинская диагностика, лишены адаптивности и способности к обобщению, присущих человеческому интеллекту. Основной тезис заключается в том, что психометрические подходы, в частности Корпус абстракции и рассуждений (ARC), предложенный Шолле, предлагают наиболее перспективный путь для обнаружения и измерения ИОИ.
3. Ключевая идея: Психометрический сдвиг парадигмы
Фундаментальная идея этой статьи заключается в том, что измерение ИОИ требует сдвига парадигмы от предметно-ориентированных бенчмарков к психометрическим структурам, оценивающим общие когнитивные способности. Автор утверждает, что традиционные бенчмарки ИИ (например, игры, классификация изображений) недостаточны, поскольку они измеряют узкую, специфичную для предметной области производительность, а не общий интеллект. Психометрический подход, вдохновленный тестированием человеческого интеллекта, фокусируется на измерении способности решать новые задачи в различных областях без специального обучения.
4. Логическая последовательность: От узкого ИИ к общему интеллекту
Статья следует четкой логической последовательности:
- Выявление проблемы: Современные системы ИИ узки и хрупки, они терпят неудачу, когда среда незначительно отклоняется от условий обучения.
- Определение ИОИ: Общий интеллект определяется как способность выполнять задачи во множестве областей, включая те, которые были неизвестны на момент создания.
- Обзор существующих тестов: Автор оценивает шесть предложенных тестов Михайловского (Объяснение, Постановка задачи, Опровержение, Предсказание нового явления, Создание бизнеса, Создание теории) и бенчмарк ARC Шолле.
- Критическая оценка: Каждый тест оценивается по критериям, включая общность, объективность, масштабируемость и устойчивость к «взлому».
- Рекомендация: Психометрические подходы, особенно ARC, определены как наиболее перспективное направление.
5. Сильные стороны и недостатки: Критическая оценка тестов ИОИ
5.1 Сильные стороны психометрических подходов
- Общность: Задачи ARC требуют рассуждения об абстрактных паттернах, а не знания предметной области.
- Объективность: Производительность измеряется успешностью на невиданных ранее задачах, что снижает предвзятость.
- Масштабируемость: Набор данных ARC содержит 800 задач, что позволяет проводить надежный статистический анализ.
5.2 Недостатки и ограничения
- Тесты Михайловского: Тесты на объяснение, создание теории и создание бизнеса слишком антропоцентричны и сложны для объективной автоматизации. Они требуют творческих способностей на уровне человека и взаимодействия с реальным миром, что может быть необязательно для ИОИ.
- Ограничения ARC: Хотя ARC и перспективен, он в первую очередь фокусируется на визуальном мышлении и может не охватывать другие аспекты интеллекта (например, социальное, лингвистическое или физическое мышление).
- Отсутствие временной динамики: Большинство тестов статичны и не оценивают обучение с течением времени или адаптацию к изменяющейся среде.
6. Практические выводы: Будущие направления
Основываясь на анализе, статья предлагает несколько практических направлений:
- Разработка гибридных бенчмарков: Объединение психометрических задач с динамическими, интерактивными средами для оценки как рассуждения, так и адаптации.
- Включение нескольких модальностей: Расширение ARC для включения лингвистических, слуховых и физических задач на рассуждение.
- Фокус на композиционном обобщении: Разработка задач, требующих комбинирования изученных концепций новыми способами, что является ключевым аспектом человеческого интеллекта.
- Принятие стандартизированной отчетности: Использование психометрических метрик (например, надежность, валидность, теория ответов на пункты) для обеспечения научной строгости бенчмарков.
7. Технические детали и математическая формулировка
Психометрический подход к измерению ИОИ может быть формализован с использованием теории ответов на пункты (IRT). Пусть $\theta$ представляет латентный общий интеллект агента. Вероятность правильного решения задачи $i$ со сложностью $b_i$ и дискриминативностью $a_i$ задается логистической моделью:
$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$
Для бенчмарка ARC каждая задача состоит из пар входных и выходных сеток. Агент должен вывести лежащее в основе преобразование $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ из нескольких примеров и применить его к новому входу. Метрикой производительности является точность на неиспользованных задачах, взвешенная по сложности задачи.
8. Экспериментальные результаты и анализ бенчмарков
Статья не представляет оригинальных экспериментов, а рассматривает существующие результаты. Ключевые выводы из литературы включают:
- Производительность человека на ARC: Люди достигают примерно 80-90% точности на задачах ARC, что демонстрирует реализуемость бенчмарка.
- Производительность ИИ: Современные системы ИИ (по состоянию на 2020 год) достигают менее 30% точности на ARC, что подчеркивает разрыв между узким и общим интеллектом.
- Сравнение с другими бенчмарками: ARC является более сложным, чем традиционные тесты IQ для ИИ, поскольку требует программо-подобных рассуждений, а не сопоставления с образцом.
Рисунок 1: Гипотетическая столбчатая диаграмма, сравнивающая производительность человека и ИИ на задачах ARC по уровням сложности (легкий, средний, сложный). Люди последовательно превосходят ИИ, причем разрыв увеличивается на более сложных задачах.
9. Аналитическая структура: Пример ARC
Чтобы проиллюстрировать психометрический подход, рассмотрим задачу ARC, где входом является сетка 3x3 с цветными ячейками, а выходом — сетка 3x3 с другим паттерном. Агент должен вывести правило (например, «повернуть паттерн на 90 градусов по часовой стрелке») из двух примеров и применить его к третьему входу.
Пример задачи:
- Вход 1: [[0,1,0],[1,0,1],[0,1,0]] → Выход 1: [[0,1,0],[1,0,1],[0,1,0]] (без изменений, симметрия)
- Вход 2: [[1,0,0],[0,1,0],[0,0,1]] → Выход 2: [[0,0,1],[0,1,0],[1,0,0]] (отражение по антидиагонали)
- Тестовый вход: [[0,0,1],[0,1,0],[1,0,0]] → Ожидаемый выход: [[1,0,0],[0,1,0],[0,0,1]]
Эта задача требует от агента распознать правило преобразования (отражение по антидиагонали) и применить его к новому паттерну. Психометрическая ценность заключается в том, что правило является абстрактным и не привязано к какой-либо конкретной области.
10. Будущие применения и перспективы
Психометрический подход к ИОИ имеет несколько многообещающих применений:
- Безопасность ИИ: Психометрические бенчмарки могут помочь обнаружить неожиданные сбои в системах ИИ путем тестирования обобщения на новые сценарии.
- Взаимодействие человека и ИИ: Понимание когнитивного профиля ИИ (например, сильные стороны в визуальном или лингвистическом мышлении) может улучшить совместную работу с людьми.
- Образовательный ИИ: Психометрические структуры могут направлять разработку ИИ-тьюторов, которые адаптируются к индивидуальным стилям обучения.
- Нейронаука: Сравнение производительности человека и ИИ на психометрических задачах может пролить свет на нейронную основу общего интеллекта.
Будущие направления включают интеграцию психометрических бенчмарков со средами обучения с подкреплением, разработку динамических тестов, адаптирующихся к уровню способностей агента, и создание мультимодальных бенчмарков, оценивающих рассуждение через сенсорные модальности.
11. Оригинальный анализ и комментарии
Статья убедительно обосновывает психометрические подходы к ИОИ, но несколько критических моментов заслуживают внимания. Во-первых, опора на человеческий интеллект как на золотой стандарт философски сомнительна. Как утверждает Бостром (2014) в «Сверхинтеллекте», ИОИ может проявлять формы интеллекта, качественно отличные от человеческого познания, что делает антропоцентричные бенчмарки потенциально вводящими в заблуждение. Во-вторых, бенчмарк ARC, хотя и элегантен, может быть слишком узким. Как отмечают Лейк и др. (2017) в статье «Создание машин, которые учатся и думают как люди», человеческий интеллект включает не только абстрактное мышление, но также интуитивную физику, социальное познание и понимание языка. Действительно общий бенчмарк интеллекта должен охватывать эти аспекты. В-третьих, в статье упускается потенциал состязательного тестирования. Как показали Гудфеллоу и др. (2014) в оригинальной статье о GAN, состязательные примеры могут выявить фундаментальные слабости в системах ИИ, которые стандартные бенчмарки пропускают. Включение состязательных элементов в психометрические тесты могло бы обеспечить более надежную оценку обобщения. Наконец, фокус статьи на измерении, а не на архитектуре, является сильной стороной, но он рискует игнорировать вопрос о том, как построить ИОИ. Как утверждает Юдковски (2008), проблема выравнивания требует понимания внутренних механизмов систем ИИ, а не только их внешнего поведения. Несмотря на эти ограничения, статья предоставляет ценную основу для размышлений об оценке ИОИ и справедливо подчеркивает необходимость строгих, психометрически валидных бенчмарков.
12. Список литературы
- McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
- Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
- Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
- Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
- Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
- Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
- Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
- Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
- Thomson, W. (1889). Popular Lectures and Addresses.
- Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
- Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
- Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
- Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
- Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
- Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
- Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
- Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
- Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.