選擇語言

心理測量式通用人工智能嘅論證

對AGI基準同測試嘅批判性回顧,提出用心理測量方法嚟衡量AI系統嘅通用智能。
agi-friend.com | PDF Size: 0.1 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - 心理測量式通用人工智能嘅論證

1. 目錄

2. 引言

Mark McPherson(般尼茅夫大學,2020年)嘅論文「心理測量式通用人工智能嘅論證」批判性咁檢視咗現有用嚟衡量通用人工智能(AGI)嘅基準同測試。作者認為,現有嘅AI系統雖然喺圍棋、星海爭霸同醫療診斷呢啲狹窄領域做到超人類表現,但係就缺乏人類智能嘅適應性同泛化能力。核心論點係,心理測量方法,特別係Chollet提出嘅抽象同推理語料庫(ARC),提供咗最有望嘅途徑嚟檢測同衡量AGI。

3. 核心見解:心理測量範式轉移

呢篇論文嘅基本見解係,衡量AGI需要一個範式轉移,由針對特定任務嘅基準轉向評估一般認知能力嘅心理測量框架。作者認為,傳統嘅AI基準(例如玩遊戲、圖像分類)係唔夠嘅,因為佢哋衡量嘅係狹窄、特定領域嘅表現,而唔係通用智能。心理測量方法受到人類智能測試嘅啟發,專注於衡量喺唔同領域解決新問題嘅能力,而唔需要特定任務嘅訓練。

4. 邏輯流程:從狹窄AI到通用智能

呢篇論文跟住一個清晰嘅邏輯進程:

  1. 問題識別:現有嘅AI系統狹窄同脆弱,當環境稍微偏離訓練條件就會失敗。
  2. AGI嘅定義:通用智能被定義為能夠喺眾多領域執行任務嘅能力,包括喺創建時未知嘅領域。
  3. 現有測試嘅回顧:作者評估咗Mikhaylovskiy提出嘅六個測試(解釋、問題設定、反駁、新現象預測、商業創建、理論創建)同Chollet嘅ARC基準。
  4. 批判性評估:每個測試都根據通用性、客觀性、可擴展性同抗操縱性等標準進行評估。
  5. 建議:心理測量方法,特別係ARC,被認為係最有前途嘅方向。

5. 優點同缺點:AGI測試嘅批判性評估

5.1 心理測量方法嘅優點

5.2 缺點同限制

6. 可行見解:未來方向

根據分析,呢篇論文提出咗幾個可行嘅方向:

7. 技術細節同數學公式

衡量AGI嘅心理測量方法可以用項目反應理論(IRT)嚟形式化。令 $\theta$ 代表一個智能體嘅潛在通用智能。正確解決難度為 $b_i$ 同區分度為 $a_i$ 嘅任務 $i$ 嘅概率由邏輯模型給出:

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

對於ARC基準,每個任務由輸入-輸出網格對組成。智能體必須從幾個例子中推斷出底層嘅轉換 $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$,並將佢應用於一個新輸入。表現指標係喺保留任務上嘅準確率,按任務難度加權。

8. 實驗結果同基準分析

呢篇論文冇提出原創實驗,但係回顧咗現有結果。文獻中嘅主要發現包括:

圖1:一個假設嘅條形圖,比較人類同AI喺唔同難度級別(容易、中等、困難)嘅ARC任務上嘅表現。人類 consistently 表現優於AI,而且喺更難嘅任務上差距會擴大。

9. 分析框架:ARC案例研究

為咗說明心理測量方法,考慮一個ARC任務,輸入係一個3x3嘅彩色網格,輸出係一個唔同圖案嘅3x3網格。智能體必須從兩個例子中推斷出規則(例如「將圖案順時針旋轉90度」),並將佢應用於第三個輸入。

示例任務:

呢個任務要求智能體識別轉換規則(沿反對角線翻轉)並將佢應用於一個新模式。心理測量嘅價值在於呢個規則是抽象嘅,並唔係綁定喺任何特定領域。

10. 未來應用同展望

心理測量方法應用於AGI有幾個有前途嘅應用:

未來方向包括將心理測量基準與強化學習環境整合,開發能夠適應智能體能力水平嘅動態測試,以及創建評估跨感官模態推理嘅多模態基準。

11. 原創分析同評論

呢篇論文為心理測量方法應用於AGI提出咗一個令人信服嘅論點,但係有幾個關鍵點值得審視。首先,依賴人類智能作為黃金標準喺哲學上係有問題嘅。正如Bostrom(2014)喺《超級智能》中所論證嘅,AGI可能展現出與人類認知質性唔同嘅智能形式,令到以人類為中心嘅基準可能產生誤導。第二,ARC基準雖然優雅,但可能太狹窄。正如Lake等人(2017)喺《建立像人一樣學習同思考嘅機器》中所指出嘅,人類智能唔單止包括抽象推理,仲包括直覺物理、社交認知同語言理解。一個真正嘅通用智能基準應該涵蓋呢啲維度。第三,呢篇論文忽略咗對抗性測試嘅潛力。正如Goodfellow等人(2014)喺原始GAN論文中所展示嘅,對抗性例子可以揭示AI系統中標準基準忽略嘅根本弱點。將對抗性元素納入心理測量測試可以提供更穩健嘅泛化能力評估。最後,呢篇論文專注於衡量而非架構係一個優點,但佢有風險忽略咗點樣建立AGI嘅問題。正如Yudkowsky(2008)所論證嘅,對齊問題需要理解AI系統嘅內部機制,而唔單止係佢哋嘅外部行為。儘管有呢啲限制,呢篇論文提供咗一個有價值嘅框架嚟思考AGI評估,並正確咁強調咗需要嚴謹、心理測量有效嘅基準。

12. 參考文獻

  1. McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
  2. Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
  3. Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
  4. Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
  5. Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
  6. Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
  7. Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
  8. Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
  9. Thomson, W. (1889). Popular Lectures and Addresses.
  10. Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
  11. Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
  12. Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
  13. Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
  14. Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
  15. Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
  16. Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
  17. Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
  18. Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.