1. 目錄
- 2. 引言
- 3. 核心見解:心理測量典範轉移
- 4. 邏輯脈絡:從狹義AI到通用智慧
- 5. 優勢與缺陷:AGI測試的批判性評估
- 6. 可行洞見:未來方向
- 7. 技術細節與數學公式
- 8. 實驗結果與基準分析
- 9. 分析框架:ARC案例研究
- 10. 未來應用與展望
- 11. 原創分析與評論
- 12. 參考文獻
2. 引言
Mark McPherson(伯恩茅斯大學,2020年)所著的論文《心理測量式通用人工智慧的論證》批判性地回顧了現有用於衡量通用人工智慧(AGI)的基準與測試。作者認為,當前的AI系統儘管在圍棋、星海爭霸和醫療診斷等狹義領域中達到了超越人類的表現,但仍缺乏人類智慧的適應性與泛化能力。其核心論點是,心理測量方法,特別是Chollet提出的抽象與推理語料庫(ARC),為檢測與衡量AGI提供了最有前景的途徑。
3. 核心見解:心理測量典範轉移
本文的基本見解在於,衡量AGI需要從特定任務的基準轉向評估通用認知能力的心理測量框架。作者認為,傳統的AI基準(例如遊戲對弈、圖像分類)是不足的,因為它們衡量的是狹義、特定領域的表現,而非通用智慧。心理測量方法受到人類智力測驗的啟發,專注於衡量在無需特定任務訓練的情況下,解決跨領域新問題的能力。
4. 邏輯脈絡:從狹義AI到通用智慧
本文遵循清晰的邏輯進程:
- 問題識別:當前的AI系統既狹隘又脆弱,當環境與訓練條件稍有偏差時便會失敗。
- AGI的定義:通用智慧被定義為能夠在眾多領域中執行任務的能力,包括在創建時未知的領域。
- 現有測試回顧:作者評估了Mikhaylovskiy提出的六項測試(解釋、問題設定、反駁、預測新現象、商業創造、理論創造)以及Chollet的ARC基準。
- 批判性評估:根據通用性、客觀性、可擴展性以及抗操縱性等標準,對每項測試進行評估。
- 建議:心理測量方法,特別是ARC,被認為是最有前景的方向。
5. 優勢與缺陷:AGI測試的批判性評估
5.1 心理測量方法的優勢
- 通用性:ARC任務需要對抽象模式進行推理,而非依賴特定領域的知識。
- 客觀性:表現是透過在未見過的任務上的成功來衡量,從而減少偏誤。
- 可擴展性:ARC資料集包含800個任務,允許進行穩健的統計分析。
5.2 缺陷與限制
- Mikhaylovskiy的測試:解釋、理論創造和商業創造測試過於人類中心主義,且難以客觀自動化。它們需要人類層級的創造力和真實世界互動,而這對於AGI可能並非必要。
- ARC的限制:雖然前景看好,但ARC主要側重於視覺推理,可能無法捕捉智慧的其他面向(例如社交、語言或物理推理)。
- 缺乏時間動態:大多數測試是靜態的,並未評估隨時間的學習能力或對環境變化的適應能力。
6. 可行洞見:未來方向
根據分析,本文提出了幾個可行的方向:
- 開發混合基準:將心理測量任務與動態、互動式環境相結合,以評估推理與適應能力。
- 納入多種模態:將ARC擴展至包含語言、聽覺和物理推理任務。
- 專注於組合泛化:設計需要以新穎方式組合已學概念的任務,這是人類智慧的關鍵面向。
- 採用標準化報告:使用心理測量指標(例如信度、效度、項目反應理論)以確保基準在科學上嚴謹。
7. 技術細節與數學公式
AGI測量的心理測量方法可以使用項目反應理論(IRT)來形式化。令 $\theta$ 代表智能體的潛在通用智慧。正確解決難度為 $b_i$ 且鑑別度為 $a_i$ 的任務 $i$ 的機率由邏輯模型給出:
$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$
對於ARC基準,每個任務由輸入-輸出網格對組成。智能體必須從少數範例中推斷出底層轉換 $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$,並將其應用於新的輸入。表現指標是保留任務上的準確率,並按任務難度加權。
8. 實驗結果與基準分析
本文並未呈現原創實驗,而是回顧了現有結果。文獻中的關鍵發現包括:
- 人類在ARC上的表現:人類在ARC任務上達到約80-90%的準確率,證明了該基準的可行性。
- AI的表現:截至2020年,當前最先進的AI系統在ARC上的準確率低於30%,凸顯了狹義智慧與通用智慧之間的差距。
- 與其他基準的比較:ARC比傳統的AI智商測驗更具挑戰性,因為它需要類似程式的推理,而非模式匹配。
圖1:一個假設的長條圖,比較人類與AI在不同難度等級(簡單、中等、困難)的ARC任務上的表現。人類始終優於AI,且在更困難的任務上差距擴大。
9. 分析框架:ARC案例研究
為了說明心理測量方法,考慮一個ARC任務,其中輸入是一個帶有彩色單元的3x3網格,輸出是一個具有不同圖案的3x3網格。智能體必須從兩個範例中推斷出規則(例如「將圖案順時針旋轉90度」),並將其應用於第三個輸入。
範例任務:
- 輸入1:[[0,1,0],[1,0,1],[0,1,0]] → 輸出1:[[0,1,0],[1,0,1],[0,1,0]](無變化,對稱)
- 輸入2:[[1,0,0],[0,1,0],[0,0,1]] → 輸出2:[[0,0,1],[0,1,0],[1,0,0]](沿反對角線翻轉)
- 測試輸入:[[0,0,1],[0,1,0],[1,0,0]] → 預期輸出:[[1,0,0],[0,1,0],[0,0,1]]
此任務要求智能體識別轉換規則(沿反對角線翻轉)並將其應用於新的圖案。其心理測量價值在於該規則是抽象的,且不與任何特定領域掛鉤。
10. 未來應用與展望
AGI的心理測量方法具有幾個有前景的應用:
- AI安全:心理測量基準可以透過測試對新場景的泛化能力,幫助檢測AI系統中的意外故障。
- 人機協作:了解AI的認知輪廓(例如在視覺與語言推理方面的優勢)可以改善與人類的團隊合作。
- 教育AI:心理測量框架可以指導適應個人學習風格的AI家教之開發。
- 神經科學:比較人類與AI在心理測量任務上的表現,可以闡明通用智慧的神經基礎。
未來方向包括將心理測量基準與強化學習環境整合、開發能適應智能體能力水準的動態測試,以及創建評估跨感官模態推理的多模態基準。
11. 原創分析與評論
本文為AGI的心理測量方法提出了令人信服的論證,但有幾個關鍵點值得審視。首先,將類似人類的智慧視為黃金標準在哲學上是有問題的。正如Bostrom(2014)在《超級智慧》中所論證的,AGI可能展現出與人類認知性質上不同的智慧形式,這使得人類中心主義的基準可能具有誤導性。其次,ARC基準雖然優雅,但可能過於狹隘。正如Lake等人(2017)在《打造像人類一樣學習與思考的機器》中所指出的,人類智慧不僅涉及抽象推理,還涉及直覺物理學、社會認知和語言理解。一個真正的通用智慧基準應該涵蓋這些面向。第三,本文忽略了對抗性測試的潛力。正如Goodfellow等人(2014)在原始GAN論文中所展示的,對抗性範例可以揭示標準基準所忽略的AI系統根本弱點。將對抗性元素納入心理測量測試,可以提供對泛化能力更穩健的評估。最後,本文專注於測量而非架構是一個優勢,但它可能忽略了如何建構AGI的問題。正如Yudkowsky(2008)所論證的,對齊問題需要理解AI系統的內部機制,而不僅僅是其外部行為。儘管有這些限制,本文為思考AGI評估提供了一個有價值的框架,並正確地強調了對嚴謹、具有心理測量效度的基準之需求。
12. 參考文獻
- McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
- Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
- Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
- Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
- Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
- Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
- Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
- Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
- Thomson, W. (1889). Popular Lectures and Addresses.
- Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
- Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
- Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
- Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
- Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
- Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
- Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
- Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
- Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.