心理測量式通用人工智慧的論證

1. 目錄

2. 引言
3. 核心見解：心理測量典範轉移
4. 邏輯脈絡：從狹義AI到通用智慧
5. 優勢與缺陷：AGI測試的批判性評估
6. 可行洞見：未來方向
7. 技術細節與數學公式
8. 實驗結果與基準分析
9. 分析框架：ARC案例研究
10. 未來應用與展望
11. 原創分析與評論
12. 參考文獻

2. 引言

Mark McPherson（伯恩茅斯大學，2020年）所著的論文《心理測量式通用人工智慧的論證》批判性地回顧了現有用於衡量通用人工智慧（AGI）的基準與測試。作者認為，當前的AI系統儘管在圍棋、星海爭霸和醫療診斷等狹義領域中達到了超越人類的表現，但仍缺乏人類智慧的適應性與泛化能力。其核心論點是，心理測量方法，特別是Chollet提出的抽象與推理語料庫（ARC），為檢測與衡量AGI提供了最有前景的途徑。

3. 核心見解：心理測量典範轉移

本文的基本見解在於，衡量AGI需要從特定任務的基準轉向評估通用認知能力的心理測量框架。作者認為，傳統的AI基準（例如遊戲對弈、圖像分類）是不足的，因為它們衡量的是狹義、特定領域的表現，而非通用智慧。心理測量方法受到人類智力測驗的啟發，專注於衡量在無需特定任務訓練的情況下，解決跨領域新問題的能力。

4. 邏輯脈絡：從狹義AI到通用智慧

本文遵循清晰的邏輯進程：

問題識別：當前的AI系統既狹隘又脆弱，當環境與訓練條件稍有偏差時便會失敗。
AGI的定義：通用智慧被定義為能夠在眾多領域中執行任務的能力，包括在創建時未知的領域。
現有測試回顧：作者評估了Mikhaylovskiy提出的六項測試（解釋、問題設定、反駁、預測新現象、商業創造、理論創造）以及Chollet的ARC基準。
批判性評估：根據通用性、客觀性、可擴展性以及抗操縱性等標準，對每項測試進行評估。
建議：心理測量方法，特別是ARC，被認為是最有前景的方向。

5. 優勢與缺陷：AGI測試的批判性評估

5.1 心理測量方法的優勢

通用性：ARC任務需要對抽象模式進行推理，而非依賴特定領域的知識。
客觀性：表現是透過在未見過的任務上的成功來衡量，從而減少偏誤。
可擴展性：ARC資料集包含800個任務，允許進行穩健的統計分析。

5.2 缺陷與限制

Mikhaylovskiy的測試：解釋、理論創造和商業創造測試過於人類中心主義，且難以客觀自動化。它們需要人類層級的創造力和真實世界互動，而這對於AGI可能並非必要。
ARC的限制：雖然前景看好，但ARC主要側重於視覺推理，可能無法捕捉智慧的其他面向（例如社交、語言或物理推理）。
缺乏時間動態：大多數測試是靜態的，並未評估隨時間的學習能力或對環境變化的適應能力。

6. 可行洞見：未來方向

根據分析，本文提出了幾個可行的方向：

開發混合基準：將心理測量任務與動態、互動式環境相結合，以評估推理與適應能力。
納入多種模態：將ARC擴展至包含語言、聽覺和物理推理任務。
專注於組合泛化：設計需要以新穎方式組合已學概念的任務，這是人類智慧的關鍵面向。
採用標準化報告：使用心理測量指標（例如信度、效度、項目反應理論）以確保基準在科學上嚴謹。

7. 技術細節與數學公式

AGI測量的心理測量方法可以使用項目反應理論（IRT）來形式化。令 $\theta$ 代表智能體的潛在通用智慧。正確解決難度為 $b_i$ 且鑑別度為 $a_i$ 的任務 $i$ 的機率由邏輯模型給出：

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

對於ARC基準，每個任務由輸入-輸出網格對組成。智能體必須從少數範例中推斷出底層轉換 $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$，並將其應用於新的輸入。表現指標是保留任務上的準確率，並按任務難度加權。

8. 實驗結果與基準分析

本文並未呈現原創實驗，而是回顧了現有結果。文獻中的關鍵發現包括：

人類在ARC上的表現：人類在ARC任務上達到約80-90%的準確率，證明了該基準的可行性。
AI的表現：截至2020年，當前最先進的AI系統在ARC上的準確率低於30%，凸顯了狹義智慧與通用智慧之間的差距。
與其他基準的比較：ARC比傳統的AI智商測驗更具挑戰性，因為它需要類似程式的推理，而非模式匹配。

圖1：一個假設的長條圖，比較人類與AI在不同難度等級（簡單、中等、困難）的ARC任務上的表現。人類始終優於AI，且在更困難的任務上差距擴大。

9. 分析框架：ARC案例研究

為了說明心理測量方法，考慮一個ARC任務，其中輸入是一個帶有彩色單元的3x3網格，輸出是一個具有不同圖案的3x3網格。智能體必須從兩個範例中推斷出規則（例如「將圖案順時針旋轉90度」），並將其應用於第三個輸入。

範例任務：

輸入1：[[0,1,0],[1,0,1],[0,1,0]] → 輸出1：[[0,1,0],[1,0,1],[0,1,0]]（無變化，對稱）
輸入2：[[1,0,0],[0,1,0],[0,0,1]] → 輸出2：[[0,0,1],[0,1,0],[1,0,0]]（沿反對角線翻轉）
測試輸入：[[0,0,1],[0,1,0],[1,0,0]] → 預期輸出：[[1,0,0],[0,1,0],[0,0,1]]

此任務要求智能體識別轉換規則（沿反對角線翻轉）並將其應用於新的圖案。其心理測量價值在於該規則是抽象的，且不與任何特定領域掛鉤。

10. 未來應用與展望

AGI的心理測量方法具有幾個有前景的應用：

AI安全：心理測量基準可以透過測試對新場景的泛化能力，幫助檢測AI系統中的意外故障。
人機協作：了解AI的認知輪廓（例如在視覺與語言推理方面的優勢）可以改善與人類的團隊合作。
教育AI：心理測量框架可以指導適應個人學習風格的AI家教之開發。
神經科學：比較人類與AI在心理測量任務上的表現，可以闡明通用智慧的神經基礎。

未來方向包括將心理測量基準與強化學習環境整合、開發能適應智能體能力水準的動態測試，以及創建評估跨感官模態推理的多模態基準。

11. 原創分析與評論

本文為AGI的心理測量方法提出了令人信服的論證，但有幾個關鍵點值得審視。首先，將類似人類的智慧視為黃金標準在哲學上是有問題的。正如Bostrom（2014）在《超級智慧》中所論證的，AGI可能展現出與人類認知性質上不同的智慧形式，這使得人類中心主義的基準可能具有誤導性。其次，ARC基準雖然優雅，但可能過於狹隘。正如Lake等人（2017）在《打造像人類一樣學習與思考的機器》中所指出的，人類智慧不僅涉及抽象推理，還涉及直覺物理學、社會認知和語言理解。一個真正的通用智慧基準應該涵蓋這些面向。第三，本文忽略了對抗性測試的潛力。正如Goodfellow等人（2014）在原始GAN論文中所展示的，對抗性範例可以揭示標準基準所忽略的AI系統根本弱點。將對抗性元素納入心理測量測試，可以提供對泛化能力更穩健的評估。最後，本文專注於測量而非架構是一個優勢，但它可能忽略了如何建構AGI的問題。正如Yudkowsky（2008）所論證的，對齊問題需要理解AI系統的內部機制，而不僅僅是其外部行為。儘管有這些限制，本文為思考AGI評估提供了一個有價值的框架，並正確地強調了對嚴謹、具有心理測量效度的基準之需求。

12. 參考文獻

McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
Thomson, W. (1889). Popular Lectures and Addresses.
Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.