選擇語言

心理測量式通用人工智慧的論證

對AGI基準與測試的批判性回顧,提出以心理測量方法衡量AI系統通用智慧。
agi-friend.com | PDF Size: 0.1 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - 心理測量式通用人工智慧的論證

1. 目錄

2. 引言

Mark McPherson(伯恩茅斯大學,2020年)所著的論文《心理測量式通用人工智慧的論證》批判性地回顧了現有用於衡量通用人工智慧(AGI)的基準與測試。作者認為,當前的AI系統儘管在圍棋、星海爭霸和醫療診斷等狹義領域中達到了超越人類的表現,但仍缺乏人類智慧的適應性與泛化能力。其核心論點是,心理測量方法,特別是Chollet提出的抽象與推理語料庫(ARC),為檢測與衡量AGI提供了最有前景的途徑。

3. 核心見解:心理測量典範轉移

本文的基本見解在於,衡量AGI需要從特定任務的基準轉向評估通用認知能力的心理測量框架。作者認為,傳統的AI基準(例如遊戲對弈、圖像分類)是不足的,因為它們衡量的是狹義、特定領域的表現,而非通用智慧。心理測量方法受到人類智力測驗的啟發,專注於衡量在無需特定任務訓練的情況下,解決跨領域新問題的能力。

4. 邏輯脈絡:從狹義AI到通用智慧

本文遵循清晰的邏輯進程:

  1. 問題識別:當前的AI系統既狹隘又脆弱,當環境與訓練條件稍有偏差時便會失敗。
  2. AGI的定義:通用智慧被定義為能夠在眾多領域中執行任務的能力,包括在創建時未知的領域。
  3. 現有測試回顧:作者評估了Mikhaylovskiy提出的六項測試(解釋、問題設定、反駁、預測新現象、商業創造、理論創造)以及Chollet的ARC基準。
  4. 批判性評估:根據通用性、客觀性、可擴展性以及抗操縱性等標準,對每項測試進行評估。
  5. 建議:心理測量方法,特別是ARC,被認為是最有前景的方向。

5. 優勢與缺陷:AGI測試的批判性評估

5.1 心理測量方法的優勢

5.2 缺陷與限制

6. 可行洞見:未來方向

根據分析,本文提出了幾個可行的方向:

7. 技術細節與數學公式

AGI測量的心理測量方法可以使用項目反應理論(IRT)來形式化。令 $\theta$ 代表智能體的潛在通用智慧。正確解決難度為 $b_i$ 且鑑別度為 $a_i$ 的任務 $i$ 的機率由邏輯模型給出:

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

對於ARC基準,每個任務由輸入-輸出網格對組成。智能體必須從少數範例中推斷出底層轉換 $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$,並將其應用於新的輸入。表現指標是保留任務上的準確率,並按任務難度加權。

8. 實驗結果與基準分析

本文並未呈現原創實驗,而是回顧了現有結果。文獻中的關鍵發現包括:

圖1:一個假設的長條圖,比較人類與AI在不同難度等級(簡單、中等、困難)的ARC任務上的表現。人類始終優於AI,且在更困難的任務上差距擴大。

9. 分析框架:ARC案例研究

為了說明心理測量方法,考慮一個ARC任務,其中輸入是一個帶有彩色單元的3x3網格,輸出是一個具有不同圖案的3x3網格。智能體必須從兩個範例中推斷出規則(例如「將圖案順時針旋轉90度」),並將其應用於第三個輸入。

範例任務:

此任務要求智能體識別轉換規則(沿反對角線翻轉)並將其應用於新的圖案。其心理測量價值在於該規則是抽象的,且不與任何特定領域掛鉤。

10. 未來應用與展望

AGI的心理測量方法具有幾個有前景的應用:

未來方向包括將心理測量基準與強化學習環境整合、開發能適應智能體能力水準的動態測試,以及創建評估跨感官模態推理的多模態基準。

11. 原創分析與評論

本文為AGI的心理測量方法提出了令人信服的論證,但有幾個關鍵點值得審視。首先,將類似人類的智慧視為黃金標準在哲學上是有問題的。正如Bostrom(2014)在《超級智慧》中所論證的,AGI可能展現出與人類認知性質上不同的智慧形式,這使得人類中心主義的基準可能具有誤導性。其次,ARC基準雖然優雅,但可能過於狹隘。正如Lake等人(2017)在《打造像人類一樣學習與思考的機器》中所指出的,人類智慧不僅涉及抽象推理,還涉及直覺物理學、社會認知和語言理解。一個真正的通用智慧基準應該涵蓋這些面向。第三,本文忽略了對抗性測試的潛力。正如Goodfellow等人(2014)在原始GAN論文中所展示的,對抗性範例可以揭示標準基準所忽略的AI系統根本弱點。將對抗性元素納入心理測量測試,可以提供對泛化能力更穩健的評估。最後,本文專注於測量而非架構是一個優勢,但它可能忽略了如何建構AGI的問題。正如Yudkowsky(2008)所論證的,對齊問題需要理解AI系統的內部機制,而不僅僅是其外部行為。儘管有這些限制,本文為思考AGI評估提供了一個有價值的框架,並正確地強調了對嚴謹、具有心理測量效度的基準之需求。

12. 參考文獻

  1. McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
  2. Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
  3. Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
  4. Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
  5. Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
  6. Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
  7. Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
  8. Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
  9. Thomson, W. (1889). Popular Lectures and Addresses.
  10. Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
  11. Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
  12. Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
  13. Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
  14. Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
  15. Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
  16. Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
  17. Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
  18. Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.