Selecionar idioma

O Caso para a Inteligência Geral Artificial Psicométrica

Uma revisão crítica de benchmarks e testes de AGI, propondo abordagens psicométricas para medir a inteligência geral em sistemas de IA.
agi-friend.com | PDF Size: 0.1 MB
Avaliação: 4.5/5
Sua avaliação
Você já avaliou este documento
Capa do documento PDF - O Caso para a Inteligência Geral Artificial Psicométrica

1. Índice

2. Introdução

O artigo "O Caso para a Inteligência Geral Artificial Psicométrica" de Mark McPherson (Universidade de Bournemouth, 2020) revisa criticamente os benchmarks e testes existentes para medir a Inteligência Geral Artificial (AGI). O autor argumenta que os sistemas de IA atuais, apesar de alcançarem desempenho sobre-humano em domínios restritos como Go, StarCraft e diagnóstico médico, carecem da adaptabilidade e capacidade de generalização da inteligência humana. A tese central é que as abordagens psicométricas, particularmente o Corpus de Raciocínio e Abstração (ARC) proposto por Chollet, oferecem o caminho mais promissor para detectar e medir a AGI.

3. Ideia Central: A Mudança de Paradigma Psicométrico

A ideia fundamental deste artigo é que medir a AGI requer uma mudança de paradigma, passando de benchmarks específicos de tarefas para estruturas psicométricas que avaliam habilidades cognitivas gerais. O autor argumenta que os benchmarks tradicionais de IA (por exemplo, jogos, classificação de imagens) são insuficientes porque medem desempenho restrito e específico de domínio, em vez de inteligência geral. A abordagem psicométrica, inspirada nos testes de inteligência humana, concentra-se em medir a capacidade de resolver problemas novos em diversos domínios, sem treinamento específico para a tarefa.

4. Fluxo Lógico: Da IA Estreita à Inteligência Geral

O artigo segue uma progressão lógica clara:

  1. Identificação do Problema: Os sistemas de IA atuais são restritos e frágeis, falhando quando os ambientes se desviam ligeiramente das condições de treinamento.
  2. Definição de AGI: A inteligência geral é definida como a capacidade de realizar tarefas em inúmeros domínios, incluindo aqueles desconhecidos no momento da criação.
  3. Revisão dos Testes Existentes: O autor avalia seis testes propostos por Mikhaylovskiy (Explicação, Definição de Problemas, Refutação, Previsão de Novos Fenômenos, Criação de Negócios, Criação de Teorias) e o benchmark ARC de Chollet.
  4. Avaliação Crítica: Cada teste é avaliado com base em critérios como generalidade, objetividade, escalabilidade e resistência a manipulações.
  5. Recomendação: As abordagens psicométricas, particularmente o ARC, são identificadas como a direção mais promissora.

5. Pontos Fortes e Fracos: Avaliação Crítica dos Testes de AGI

5.1 Pontos Fortes das Abordagens Psicométricas

5.2 Fraquezas e Limitações

6. Insights Acionáveis: Direções Futuras

Com base na análise, o artigo sugere várias direções acionáveis:

7. Detalhes Técnicos e Formulação Matemática

A abordagem psicométrica para a medição de AGI pode ser formalizada usando a Teoria de Resposta ao Item (TRI). Seja $\theta$ representando a inteligência geral latente de um agente. A probabilidade de resolver corretamente a tarefa $i$ com dificuldade $b_i$ e discriminação $a_i$ é dada pelo modelo logístico:

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

Para o benchmark ARC, cada tarefa consiste em pares de grade de entrada e saída. O agente deve inferir a transformação subjacente $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ a partir de alguns exemplos e aplicá-la a uma nova entrada. A métrica de desempenho é a precisão em tarefas não vistas, ponderada pela dificuldade da tarefa.

8. Resultados Experimentais e Análise de Benchmark

O artigo não apresenta experimentos originais, mas revisa os resultados existentes. As principais descobertas da literatura incluem:

Figura 1: Um gráfico de barras hipotético comparando o desempenho humano versus o da IA em tarefas ARC em diferentes níveis de dificuldade (fácil, médio, difícil). Os humanos superam consistentemente a IA, com a lacuna se ampliando em tarefas mais difíceis.

9. Estrutura Analítica: Estudo de Caso do ARC

Para ilustrar a abordagem psicométrica, considere uma tarefa ARC onde a entrada é uma grade 3x3 com células coloridas, e a saída é uma grade 3x3 com um padrão diferente. O agente deve inferir a regra (por exemplo, "girar o padrão 90 graus no sentido horário") a partir de dois exemplos e aplicá-la a uma terceira entrada.

Exemplo de Tarefa:

Esta tarefa exige que o agente reconheça a regra de transformação (inverter ao longo da anti-diagonal) e a aplique a um novo padrão. O valor psicométrico reside no fato de que a regra é abstrata e não está vinculada a nenhum domínio específico.

10. Aplicações Futuras e Perspectivas

A abordagem psicométrica para AGI tem várias aplicações promissoras:

Direções futuras incluem integrar benchmarks psicométricos com ambientes de aprendizagem por reforço, desenvolver testes dinâmicos que se adaptam ao nível de habilidade do agente e criar benchmarks multimodais que avaliam o raciocínio em diferentes modalidades sensoriais.

11. Análise e Comentário Original

O artigo apresenta um argumento convincente para abordagens psicométricas para AGI, mas vários pontos críticos merecem escrutínio. Primeiro, a dependência da inteligência semelhante à humana como padrão ouro é filosoficamente questionável. Como argumentado por Bostrom (2014) em "Superinteligência", a AGI pode exibir formas de inteligência qualitativamente diferentes da cognição humana, tornando os benchmarks antropocêntricos potencialmente enganosos. Segundo, o benchmark ARC, embora elegante, pode ser muito restrito. Conforme observado por Lake et al. (2017) em "Construindo Máquinas que Aprendem e Pensam como Pessoas", a inteligência humana envolve não apenas raciocínio abstrato, mas também física intuitiva, cognição social e compreensão da linguagem. Um benchmark de inteligência verdadeiramente geral deve abranger essas dimensões. Terceiro, o artigo ignora o potencial dos testes adversariais. Como demonstrado por Goodfellow et al. (2014) no artigo original do GAN, exemplos adversariais podem revelar fraquezas fundamentais em sistemas de IA que os benchmarks padrão não detectam. Incorporar elementos adversariais em testes psicométricos poderia fornecer uma avaliação mais robusta da generalização. Finalmente, o foco do artigo na medição, em vez da arquitetura, é um ponto forte, mas corre o risco de ignorar a questão de como construir AGI. Como Yudkowsky (2008) argumenta, o problema do alinhamento requer a compreensão dos mecanismos internos dos sistemas de IA, não apenas seu comportamento externo. Apesar dessas limitações, o artigo fornece uma estrutura valiosa para pensar sobre a avaliação de AGI e enfatiza corretamente a necessidade de benchmarks rigorosos e psicometricamente válidos.

12. Referências

  1. McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
  2. Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
  3. Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
  4. Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
  5. Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
  6. Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
  7. Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
  8. Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
  9. Thomson, W. (1889). Popular Lectures and Addresses.
  10. Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
  11. Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
  12. Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
  13. Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
  14. Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
  15. Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
  16. Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
  17. Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
  18. Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.