选择语言

心理测量学通用人工智能的论证

对AGI基准测试的批判性综述,提出采用心理测量学方法衡量AI系统通用智能。
agi-friend.com | PDF Size: 0.1 MB
评分: 4.5/5
您的评分
您已经为此文档评过分
PDF文档封面 - 心理测量学通用人工智能的论证

1. 目录

2. 引言

马克·麦克弗森(伯恩茅斯大学,2020年)的论文《心理测量学通用人工智能的论证》对衡量通用人工智能(AGI)的现有基准和测试进行了批判性综述。作者认为,当前的人工智能系统虽然在围棋、星际争霸和医学诊断等狭窄领域取得了超越人类的表现,但缺乏人类智能的适应性和泛化能力。其核心论点是,心理测量学方法,特别是肖莱提出的抽象与推理语料库(ARC),为检测和衡量AGI提供了最有前景的途径。

3. 核心见解:心理测量学范式转变

本文的基本见解是,衡量AGI需要从特定任务的基准转向评估通用认知能力的心理测量学框架。作者认为,传统的人工智能基准(例如,游戏博弈、图像分类)是不充分的,因为它们衡量的是狭窄的、特定领域的表现,而非通用智能。受人类智力测试启发的心理测量学方法,侧重于衡量在无需特定任务训练的情况下,跨不同领域解决新问题的能力。

4. 逻辑脉络:从狭义人工智能到通用智能

本文遵循清晰的逻辑递进关系:

  1. 问题识别:当前的人工智能系统是狭窄且脆弱的,当环境与训练条件稍有偏差时就会失败。
  2. AGI的定义:通用智能被定义为跨多个领域执行任务的能力,包括在创建时未知的领域。
  3. 现有测试的回顾:作者评估了米哈伊洛夫斯基提出的六项测试(解释、问题设定、反驳、新现象预测、商业创造、理论创造)以及肖莱的ARC基准。
  4. 批判性评估:每项测试都根据通用性、客观性、可扩展性和抗操纵性等标准进行评估。
  5. 建议:心理测量学方法,特别是ARC,被确定为最有前景的方向。

5. 优势与缺陷:AGI测试的批判性评估

5.1 心理测量学方法的优势

5.2 缺陷与局限性

6. 可操作见解:未来方向

基于分析,本文提出了几个可操作的方向:

7. 技术细节与数学公式

AGI测量的心理测量学方法可以使用项目反应理论(IRT)进行形式化。令 $\theta$ 表示智能体的潜在通用智能。正确解决难度为 $b_i$、区分度为 $a_i$ 的任务 $i$ 的概率由逻辑斯蒂模型给出:

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

对于ARC基准,每个任务由输入-输出网格对组成。智能体必须从少量示例中推断出底层变换 $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$,并将其应用于新的输入。性能指标是保留任务上的准确率,并按任务难度加权。

8. 实验结果与基准分析

本文未呈现原创实验,而是回顾了现有结果。文献中的关键发现包括:

图1:一个假设的柱状图,比较了人类与人工智能在不同难度级别(简单、中等、困难)的ARC任务上的表现。人类始终优于人工智能,并且在更困难的任务上差距扩大。

9. 分析框架:ARC案例研究

为了说明心理测量学方法,考虑一个ARC任务,其中输入是一个带有彩色单元格的3x3网格,输出是一个具有不同图案的3x3网格。智能体必须从两个示例中推断出规则(例如,“将图案顺时针旋转90度”),并将其应用于第三个输入。

示例任务:

该任务要求智能体识别变换规则(沿反对角线翻转)并将其应用于新图案。其心理测量学价值在于该规则是抽象的,不依赖于任何特定领域。

10. 未来应用与展望

AGI的心理测量学方法有几个有前景的应用:

未来方向包括将心理测量学基准与强化学习环境相结合,开发适应智能体能力水平的动态测试,以及创建跨感官模态评估推理能力的多模态基准。

11. 原创分析与评论

本文为AGI的心理测量学方法提出了令人信服的论据,但有几个关键点值得审视。首先,将类似人类的智能作为黄金标准在哲学上是可疑的。正如博斯特罗姆(2014)在《超级智能》中所论证的,AGI可能表现出与人类认知性质上不同的智能形式,这使得以人类为中心的基准可能具有误导性。其次,ARC基准虽然优雅,但可能过于狭窄。正如莱克等人(2017)在《构建像人一样学习和思考的机器》中所指出的,人类智能不仅包括抽象推理,还包括直觉物理、社会认知和语言理解。一个真正的通用智能基准应该包含这些维度。第三,本文忽视了对抗性测试的潜力。正如古德费洛等人(2014)在最初的生成对抗网络论文中所展示的,对抗性示例可以揭示标准基准遗漏的人工智能系统根本性弱点。将对抗性元素纳入心理测量学测试可以提供对泛化能力更稳健的评估。最后,本文侧重于测量而非架构是一个优势,但它有忽视如何构建AGI这一问题的风险。正如尤德科夫斯基(2008)所论证的,对齐问题需要理解人工智能系统的内部机制,而不仅仅是它们的外部行为。尽管存在这些局限性,本文为思考AGI评估提供了一个有价值的框架,并正确地强调了需要严谨的、心理测量学上有效的基准。

12. 参考文献

  1. McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
  2. Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
  3. Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
  4. Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
  5. Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
  6. Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
  7. Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
  8. Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
  9. Thomson, W. (1889). Popular Lectures and Addresses.
  10. Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
  11. Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
  12. Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
  13. Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
  14. Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
  15. Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
  16. Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
  17. Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
  18. Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.