언어 선택

심리측정학적 인공일반지능(AGI)의 필요성

AGI 벤치마크 및 테스트에 대한 비판적 검토를 통해 AI 시스템의 일반 지능을 측정하기 위한 심리측정학적 접근법을 제안합니다.
agi-friend.com | PDF Size: 0.1 MB
평점: 4.5/5
당신의 평점
이미 이 문서를 평가했습니다
PDF 문서 표지 - 심리측정학적 인공일반지능(AGI)의 필요성

1. 목차

2. 서론

Mark McPherson(본머스 대학교, 2020)의 논문 "심리측정학적 인공일반지능의 필요성"은 인공일반지능(AGI)을 측정하기 위한 기존 벤치마크와 테스트를 비판적으로 검토합니다. 저자는 현재의 AI 시스템이 바둑, 스타크래프트, 의료 진단과 같은 좁은 영역에서 초인간적 성능을 달성했음에도 불구하고 인간 지능의 적응성과 일반화 능력이 부족하다고 주장합니다. 핵심 논지는 Chollet이 제안한 추상화 및 추론 코퍼스(ARC)와 같은 심리측정학적 접근법이 AGI를 탐지하고 측정하는 가장 유망한 경로를 제공한다는 것입니다.

3. 핵심 통찰: 심리측정학적 패러다임 전환

이 논문의 근본적인 통찰은 AGI를 측정하려면 작업별 벤치마크에서 일반 인지 능력을 평가하는 심리측정학적 프레임워크로의 패러다임 전환이 필요하다는 것입니다. 저자는 전통적인 AI 벤치마크(예: 게임 플레이, 이미지 분류)가 일반 지능이 아닌 좁고 특정 도메인에 국한된 성능을 측정하기 때문에 불충분하다고 주장합니다. 인간 지능 테스트에서 영감을 받은 심리측정학적 접근법은 작업별 훈련 없이 다양한 영역에 걸쳐 새로운 문제를 해결하는 능력을 측정하는 데 초점을 맞춥니다.

4. 논리적 흐름: 좁은 AI에서 일반 지능으로

이 논문은 명확한 논리적 진행을 따릅니다:

  1. 문제 식별: 현재 AI 시스템은 좁고 취약하여 환경이 훈련 조건에서 약간만 벗어나도 실패합니다.
  2. AGI 정의: 일반 지능은 생성 시점에 알려지지 않은 영역을 포함한 수많은 영역에서 작업을 수행하는 능력으로 정의됩니다.
  3. 기존 테스트 검토: 저자는 Mikhaylovskiy가 제안한 6가지 테스트(설명, 문제 설정, 반박, 새로운 현상 예측, 비즈니스 창출, 이론 창출)와 Chollet의 ARC 벤치마크를 평가합니다.
  4. 비판적 평가: 각 테스트는 일반성, 객관성, 확장성, 게임 공격에 대한 저항성 등의 기준에 따라 평가됩니다.
  5. 권장 사항: 심리측정학적 접근법, 특히 ARC가 가장 유망한 방향으로 식별됩니다.

5. 강점과 한계: AGI 테스트에 대한 비판적 평가

5.1 심리측정학적 접근법의 강점

5.2 한계와 결점

6. 실행 가능한 통찰: 미래 방향

분석에 기반하여 논문은 몇 가지 실행 가능한 방향을 제시합니다:

7. 기술적 세부 사항 및 수학적 공식화

AGI 측정에 대한 심리측정학적 접근법은 문항반응이론(IRT)을 사용하여 공식화할 수 있습니다. $ heta$를 에이전트의 잠재적 일반 지능이라고 합시다. 난이도 $b_i$와 변별도 $a_i$를 가진 작업 $i$를 올바르게 해결할 확률은 로지스틱 모델로 주어집니다:

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

ARC 벤치마크의 경우 각 작업은 입력-출력 그리드 쌍으로 구성됩니다. 에이전트는 몇 가지 예제로부터 기본 변환 $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$을 추론하고 이를 새로운 입력에 적용해야 합니다. 성능 지표는 작업 난이도로 가중치가 부여된 보류 작업에 대한 정확도입니다.

8. 실험 결과 및 벤치마크 분석

이 논문은 독창적인 실험을 제시하지는 않지만 기존 결과를 검토합니다. 문헌의 주요 발견은 다음과 같습니다:

그림 1: 난이도 수준(쉬움, 중간, 어려움)에 따른 ARC 작업에서 인간 대 AI 성능을 비교하는 가상의 막대 차트입니다. 인간은 지속적으로 AI를 능가하며, 더 어려운 작업에서 그 격차는 더 벌어집니다.

9. 분석 프레임워크: ARC 사례 연구

심리측정학적 접근법을 설명하기 위해 입력이 색상 셀이 있는 3x3 그리드이고 출력이 다른 패턴의 3x3 그리드인 ARC 작업을 고려해 보십시오. 에이전트는 두 가지 예제로부터 규칙(예: "패턴을 시계 방향으로 90도 회전")을 추론하고 이를 세 번째 입력에 적용해야 합니다.

예제 작업:

이 작업은 에이전트가 변환 규칙(반대각선을 따라 뒤집기)을 인식하고 이를 새로운 패턴에 적용하도록 요구합니다. 심리측정학적 가치는 규칙이 추상적이고 특정 도메인에 묶여 있지 않다는 사실에 있습니다.

10. 미래 응용 및 전망

AGI에 대한 심리측정학적 접근법은 몇 가지 유망한 응용 분야를 가지고 있습니다:

미래 방향에는 심리측정학적 벤치마크를 강화 학습 환경과 통합하고, 에이전트의 능력 수준에 적응하는 동적 테스트를 개발하며, 감각 양식 전반에 걸친 추론을 평가하는 다중 양식 벤치마크를 만드는 것이 포함됩니다.

11. 독자적 분석 및 논평

이 논문은 AGI에 대한 심리측정학적 접근법에 대한 설득력 있는 주장을 펼치지만, 몇 가지 비판적 지점은 면밀한 조사가 필요합니다. 첫째, 인간과 유사한 지능을 금본위제로 삼는 것은 철학적으로 의문의 여지가 있습니다. Bostrom(2014)이 "초지능"에서 주장했듯이, AGI는 인간 인지와 질적으로 다른 형태의 지능을 나타낼 수 있으며, 이는 인간 중심적 벤치마크를 잠재적으로 오해의 소지가 있게 만듭니다. 둘째, ARC 벤치마크는 우아하지만 너무 좁을 수 있습니다. Lake et al.(2017)이 "인간처럼 배우고 생각하는 기계 구축"에서 지적했듯이, 인간 지능은 추상적 추론뿐만 아니라 직관적 물리학, 사회적 인지, 언어 이해를 포함합니다. 진정한 일반 지능 벤치마크는 이러한 차원을 포괄해야 합니다. 셋째, 이 논문은 적대적 테스트의 잠재력을 간과합니다. Goodfellow et al.(2014)이 원래 GAN 논문에서 입증했듯이, 적대적 예제는 표준 벤치마크가 놓치는 AI 시스템의 근본적인 약점을 드러낼 수 있습니다. 적대적 요소를 심리측정학적 테스트에 통합하면 일반화에 대한 더 강력한 평가를 제공할 수 있습니다. 마지막으로, 아키텍처보다 측정에 초점을 맞춘 것은 강점이지만, AGI를 구축하는 방법에 대한 질문을 무시할 위험이 있습니다. Yudkowsky(2008)가 주장하듯이, 정렬 문제는 AI 시스템의 외부 행동뿐만 아니라 내부 메커니즘을 이해하는 것을 요구합니다. 이러한 한계에도 불구하고, 이 논문은 AGI 평가에 대한 귀중한 프레임워크를 제공하고 엄격하고 심리측정학적으로 타당한 벤치마크의 필요성을 올바르게 강조합니다.

12. 참고 문헌

  1. McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
  2. Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
  3. Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
  4. Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
  5. Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
  6. Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
  7. Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
  8. Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
  9. Thomson, W. (1889). Popular Lectures and Addresses.
  10. Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
  11. Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
  12. Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
  13. Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
  14. Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
  15. Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
  16. Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
  17. Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
  18. Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.