Выбрать язык

Обоснование психометрического искусственного общего интеллекта

Критический обзор тестов и бенчмарков для ИОИ, предлагающий психометрические подходы к измерению общего интеллекта в системах ИИ.
agi-friend.com | PDF Size: 0.1 MB
Оценка: 4.5/5
Ваша оценка
Вы уже оценили этот документ
Обложка PDF-документа - Обоснование психометрического искусственного общего интеллекта

1. Содержание

2. Введение

Статья «Обоснование психометрического искусственного общего интеллекта» Марка Макферсона (Университет Борнмута, 2020) представляет критический обзор существующих бенчмарков и тестов для измерения искусственного общего интеллекта (ИОИ). Автор утверждает, что современные системы ИИ, несмотря на достижение сверхчеловеческой производительности в узких областях, таких как Go, StarCraft и медицинская диагностика, лишены адаптивности и способности к обобщению, присущих человеческому интеллекту. Основной тезис заключается в том, что психометрические подходы, в частности Корпус абстракции и рассуждений (ARC), предложенный Шолле, предлагают наиболее перспективный путь для обнаружения и измерения ИОИ.

3. Ключевая идея: Психометрический сдвиг парадигмы

Фундаментальная идея этой статьи заключается в том, что измерение ИОИ требует сдвига парадигмы от предметно-ориентированных бенчмарков к психометрическим структурам, оценивающим общие когнитивные способности. Автор утверждает, что традиционные бенчмарки ИИ (например, игры, классификация изображений) недостаточны, поскольку они измеряют узкую, специфичную для предметной области производительность, а не общий интеллект. Психометрический подход, вдохновленный тестированием человеческого интеллекта, фокусируется на измерении способности решать новые задачи в различных областях без специального обучения.

4. Логическая последовательность: От узкого ИИ к общему интеллекту

Статья следует четкой логической последовательности:

  1. Выявление проблемы: Современные системы ИИ узки и хрупки, они терпят неудачу, когда среда незначительно отклоняется от условий обучения.
  2. Определение ИОИ: Общий интеллект определяется как способность выполнять задачи во множестве областей, включая те, которые были неизвестны на момент создания.
  3. Обзор существующих тестов: Автор оценивает шесть предложенных тестов Михайловского (Объяснение, Постановка задачи, Опровержение, Предсказание нового явления, Создание бизнеса, Создание теории) и бенчмарк ARC Шолле.
  4. Критическая оценка: Каждый тест оценивается по критериям, включая общность, объективность, масштабируемость и устойчивость к «взлому».
  5. Рекомендация: Психометрические подходы, особенно ARC, определены как наиболее перспективное направление.

5. Сильные стороны и недостатки: Критическая оценка тестов ИОИ

5.1 Сильные стороны психометрических подходов

5.2 Недостатки и ограничения

6. Практические выводы: Будущие направления

Основываясь на анализе, статья предлагает несколько практических направлений:

7. Технические детали и математическая формулировка

Психометрический подход к измерению ИОИ может быть формализован с использованием теории ответов на пункты (IRT). Пусть $\theta$ представляет латентный общий интеллект агента. Вероятность правильного решения задачи $i$ со сложностью $b_i$ и дискриминативностью $a_i$ задается логистической моделью:

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

Для бенчмарка ARC каждая задача состоит из пар входных и выходных сеток. Агент должен вывести лежащее в основе преобразование $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ из нескольких примеров и применить его к новому входу. Метрикой производительности является точность на неиспользованных задачах, взвешенная по сложности задачи.

8. Экспериментальные результаты и анализ бенчмарков

Статья не представляет оригинальных экспериментов, а рассматривает существующие результаты. Ключевые выводы из литературы включают:

Рисунок 1: Гипотетическая столбчатая диаграмма, сравнивающая производительность человека и ИИ на задачах ARC по уровням сложности (легкий, средний, сложный). Люди последовательно превосходят ИИ, причем разрыв увеличивается на более сложных задачах.

9. Аналитическая структура: Пример ARC

Чтобы проиллюстрировать психометрический подход, рассмотрим задачу ARC, где входом является сетка 3x3 с цветными ячейками, а выходом — сетка 3x3 с другим паттерном. Агент должен вывести правило (например, «повернуть паттерн на 90 градусов по часовой стрелке») из двух примеров и применить его к третьему входу.

Пример задачи:

Эта задача требует от агента распознать правило преобразования (отражение по антидиагонали) и применить его к новому паттерну. Психометрическая ценность заключается в том, что правило является абстрактным и не привязано к какой-либо конкретной области.

10. Будущие применения и перспективы

Психометрический подход к ИОИ имеет несколько многообещающих применений:

Будущие направления включают интеграцию психометрических бенчмарков со средами обучения с подкреплением, разработку динамических тестов, адаптирующихся к уровню способностей агента, и создание мультимодальных бенчмарков, оценивающих рассуждение через сенсорные модальности.

11. Оригинальный анализ и комментарии

Статья убедительно обосновывает психометрические подходы к ИОИ, но несколько критических моментов заслуживают внимания. Во-первых, опора на человеческий интеллект как на золотой стандарт философски сомнительна. Как утверждает Бостром (2014) в «Сверхинтеллекте», ИОИ может проявлять формы интеллекта, качественно отличные от человеческого познания, что делает антропоцентричные бенчмарки потенциально вводящими в заблуждение. Во-вторых, бенчмарк ARC, хотя и элегантен, может быть слишком узким. Как отмечают Лейк и др. (2017) в статье «Создание машин, которые учатся и думают как люди», человеческий интеллект включает не только абстрактное мышление, но также интуитивную физику, социальное познание и понимание языка. Действительно общий бенчмарк интеллекта должен охватывать эти аспекты. В-третьих, в статье упускается потенциал состязательного тестирования. Как показали Гудфеллоу и др. (2014) в оригинальной статье о GAN, состязательные примеры могут выявить фундаментальные слабости в системах ИИ, которые стандартные бенчмарки пропускают. Включение состязательных элементов в психометрические тесты могло бы обеспечить более надежную оценку обобщения. Наконец, фокус статьи на измерении, а не на архитектуре, является сильной стороной, но он рискует игнорировать вопрос о том, как построить ИОИ. Как утверждает Юдковски (2008), проблема выравнивания требует понимания внутренних механизмов систем ИИ, а не только их внешнего поведения. Несмотря на эти ограничения, статья предоставляет ценную основу для размышлений об оценке ИОИ и справедливо подчеркивает необходимость строгих, психометрически валидных бенчмарков.

12. Список литературы

  1. McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
  2. Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
  3. Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
  4. Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
  5. Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
  6. Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
  7. Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
  8. Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
  9. Thomson, W. (1889). Popular Lectures and Addresses.
  10. Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
  11. Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
  12. Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
  13. Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
  14. Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
  15. Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
  16. Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
  17. Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
  18. Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.