心理测量学通用人工智能的论证

1. 目录

2. 引言
3. 核心见解：心理测量学范式转变
4. 逻辑脉络：从狭义人工智能到通用智能
5. 优势与缺陷：AGI测试的批判性评估
6. 可操作见解：未来方向
7. 技术细节与数学公式
8. 实验结果与基准分析
9. 分析框架：ARC案例研究
10. 未来应用与展望
11. 原创分析与评论
12. 参考文献

2. 引言

马克·麦克弗森（伯恩茅斯大学，2020年）的论文《心理测量学通用人工智能的论证》对衡量通用人工智能（AGI）的现有基准和测试进行了批判性综述。作者认为，当前的人工智能系统虽然在围棋、星际争霸和医学诊断等狭窄领域取得了超越人类的表现，但缺乏人类智能的适应性和泛化能力。其核心论点是，心理测量学方法，特别是肖莱提出的抽象与推理语料库（ARC），为检测和衡量AGI提供了最有前景的途径。

3. 核心见解：心理测量学范式转变

本文的基本见解是，衡量AGI需要从特定任务的基准转向评估通用认知能力的心理测量学框架。作者认为，传统的人工智能基准（例如，游戏博弈、图像分类）是不充分的，因为它们衡量的是狭窄的、特定领域的表现，而非通用智能。受人类智力测试启发的心理测量学方法，侧重于衡量在无需特定任务训练的情况下，跨不同领域解决新问题的能力。

4. 逻辑脉络：从狭义人工智能到通用智能

本文遵循清晰的逻辑递进关系：

问题识别：当前的人工智能系统是狭窄且脆弱的，当环境与训练条件稍有偏差时就会失败。
AGI的定义：通用智能被定义为跨多个领域执行任务的能力，包括在创建时未知的领域。
现有测试的回顾：作者评估了米哈伊洛夫斯基提出的六项测试（解释、问题设定、反驳、新现象预测、商业创造、理论创造）以及肖莱的ARC基准。
批判性评估：每项测试都根据通用性、客观性、可扩展性和抗操纵性等标准进行评估。
建议：心理测量学方法，特别是ARC，被确定为最有前景的方向。

5. 优势与缺陷：AGI测试的批判性评估

5.1 心理测量学方法的优势

通用性：ARC任务需要对抽象模式进行推理，而非依赖特定领域的知识。
客观性：表现通过未见任务的成功率来衡量，减少了偏差。
可扩展性：ARC数据集包含800个任务，允许进行稳健的统计分析。

5.2 缺陷与局限性

米哈伊洛夫斯基的测试：解释、理论创造和商业创造测试过于以人类为中心，难以客观自动化。它们需要人类水平的创造力和现实世界交互，这对于AGI来说可能并非必要。
ARC的局限性：尽管有前景，ARC主要侧重于视觉推理，可能无法捕捉智能的其他维度（例如，社会、语言或物理推理）。
缺乏时间动态性：大多数测试是静态的，不评估随时间的学习或对变化环境的适应能力。

6. 可操作见解：未来方向

基于分析，本文提出了几个可操作的方向：

开发混合基准：将心理测量学任务与动态、交互式环境相结合，以评估推理和适应能力。
纳入多种模态：将ARC扩展到包括语言、听觉和物理推理任务。
关注组合泛化：设计需要以新颖方式组合所学概念的任务，这是人类智能的一个关键方面。
采用标准化报告：使用心理测量学指标（例如，信度、效度、项目反应理论）确保基准在科学上严谨。

7. 技术细节与数学公式

AGI测量的心理测量学方法可以使用项目反应理论（IRT）进行形式化。令 $\theta$ 表示智能体的潜在通用智能。正确解决难度为 $b_i$、区分度为 $a_i$ 的任务 $i$ 的概率由逻辑斯蒂模型给出：

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

对于ARC基准，每个任务由输入-输出网格对组成。智能体必须从少量示例中推断出底层变换 $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$，并将其应用于新的输入。性能指标是保留任务上的准确率，并按任务难度加权。

8. 实验结果与基准分析

本文未呈现原创实验，而是回顾了现有结果。文献中的关键发现包括：

人类在ARC上的表现：人类在ARC任务上达到约80-90%的准确率，证明了该基准的可行性。
人工智能的表现：当前最先进的人工智能系统（截至2020年）在ARC上的准确率低于30%，凸显了狭义智能与通用智能之间的差距。
与其他基准的比较：ARC比传统的人工智能智商测试更具挑战性，因为它需要类似程序的推理，而非模式匹配。

图1：一个假设的柱状图，比较了人类与人工智能在不同难度级别（简单、中等、困难）的ARC任务上的表现。人类始终优于人工智能，并且在更困难的任务上差距扩大。

9. 分析框架：ARC案例研究

为了说明心理测量学方法，考虑一个ARC任务，其中输入是一个带有彩色单元格的3x3网格，输出是一个具有不同图案的3x3网格。智能体必须从两个示例中推断出规则（例如，“将图案顺时针旋转90度”），并将其应用于第三个输入。

示例任务：

输入1：[[0,1,0],[1,0,1],[0,1,0]] → 输出1：[[0,1,0],[1,0,1],[0,1,0]]（无变化，对称）
输入2：[[1,0,0],[0,1,0],[0,0,1]] → 输出2：[[0,0,1],[0,1,0],[1,0,0]]（沿反对角线翻转）
测试输入：[[0,0,1],[0,1,0],[1,0,0]] → 预期输出：[[1,0,0],[0,1,0],[0,0,1]]

该任务要求智能体识别变换规则（沿反对角线翻转）并将其应用于新图案。其心理测量学价值在于该规则是抽象的，不依赖于任何特定领域。

10. 未来应用与展望

AGI的心理测量学方法有几个有前景的应用：

人工智能安全：心理测量学基准可以通过测试对新颖场景的泛化能力，帮助检测人工智能系统中的意外故障。
人机协作：了解人工智能的认知概况（例如，视觉推理与语言推理方面的优势）可以改善与人类的协作。
教育人工智能：心理测量学框架可以指导适应个体学习风格的人工智能导师的开发。
神经科学：比较人类和人工智能在心理测量学任务上的表现，可以揭示通用智能的神经基础。

未来方向包括将心理测量学基准与强化学习环境相结合，开发适应智能体能力水平的动态测试，以及创建跨感官模态评估推理能力的多模态基准。

11. 原创分析与评论

本文为AGI的心理测量学方法提出了令人信服的论据，但有几个关键点值得审视。首先，将类似人类的智能作为黄金标准在哲学上是可疑的。正如博斯特罗姆（2014）在《超级智能》中所论证的，AGI可能表现出与人类认知性质上不同的智能形式，这使得以人类为中心的基准可能具有误导性。其次，ARC基准虽然优雅，但可能过于狭窄。正如莱克等人（2017）在《构建像人一样学习和思考的机器》中所指出的，人类智能不仅包括抽象推理，还包括直觉物理、社会认知和语言理解。一个真正的通用智能基准应该包含这些维度。第三，本文忽视了对抗性测试的潜力。正如古德费洛等人（2014）在最初的生成对抗网络论文中所展示的，对抗性示例可以揭示标准基准遗漏的人工智能系统根本性弱点。将对抗性元素纳入心理测量学测试可以提供对泛化能力更稳健的评估。最后，本文侧重于测量而非架构是一个优势，但它有忽视如何构建AGI这一问题的风险。正如尤德科夫斯基（2008）所论证的，对齐问题需要理解人工智能系统的内部机制，而不仅仅是它们的外部行为。尽管存在这些局限性，本文为思考AGI评估提供了一个有价值的框架，并正确地强调了需要严谨的、心理测量学上有效的基准。

12. 参考文献

McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
Thomson, W. (1889). Popular Lectures and Addresses.
Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.