O Caso para a Inteligência Geral Artificial Psicométrica

1. Índice

2. Introdução
3. Ideia Central: A Mudança de Paradigma Psicométrico
4. Fluxo Lógico: Da IA Estreita à Inteligência Geral
5. Pontos Fortes e Fracos: Avaliação Crítica dos Testes de AGI
6. Insights Acionáveis: Direções Futuras
7. Detalhes Técnicos e Formulação Matemática
8. Resultados Experimentais e Análise de Benchmark
9. Estrutura Analítica: Estudo de Caso do ARC
10. Aplicações Futuras e Perspectivas
11. Análise e Comentário Original
12. Referências

2. Introdução

O artigo "O Caso para a Inteligência Geral Artificial Psicométrica" de Mark McPherson (Universidade de Bournemouth, 2020) revisa criticamente os benchmarks e testes existentes para medir a Inteligência Geral Artificial (AGI). O autor argumenta que os sistemas de IA atuais, apesar de alcançarem desempenho sobre-humano em domínios restritos como Go, StarCraft e diagnóstico médico, carecem da adaptabilidade e capacidade de generalização da inteligência humana. A tese central é que as abordagens psicométricas, particularmente o Corpus de Raciocínio e Abstração (ARC) proposto por Chollet, oferecem o caminho mais promissor para detectar e medir a AGI.

3. Ideia Central: A Mudança de Paradigma Psicométrico

A ideia fundamental deste artigo é que medir a AGI requer uma mudança de paradigma, passando de benchmarks específicos de tarefas para estruturas psicométricas que avaliam habilidades cognitivas gerais. O autor argumenta que os benchmarks tradicionais de IA (por exemplo, jogos, classificação de imagens) são insuficientes porque medem desempenho restrito e específico de domínio, em vez de inteligência geral. A abordagem psicométrica, inspirada nos testes de inteligência humana, concentra-se em medir a capacidade de resolver problemas novos em diversos domínios, sem treinamento específico para a tarefa.

4. Fluxo Lógico: Da IA Estreita à Inteligência Geral

O artigo segue uma progressão lógica clara:

Identificação do Problema: Os sistemas de IA atuais são restritos e frágeis, falhando quando os ambientes se desviam ligeiramente das condições de treinamento.
Definição de AGI: A inteligência geral é definida como a capacidade de realizar tarefas em inúmeros domínios, incluindo aqueles desconhecidos no momento da criação.
Revisão dos Testes Existentes: O autor avalia seis testes propostos por Mikhaylovskiy (Explicação, Definição de Problemas, Refutação, Previsão de Novos Fenômenos, Criação de Negócios, Criação de Teorias) e o benchmark ARC de Chollet.
Avaliação Crítica: Cada teste é avaliado com base em critérios como generalidade, objetividade, escalabilidade e resistência a manipulações.
Recomendação: As abordagens psicométricas, particularmente o ARC, são identificadas como a direção mais promissora.

5. Pontos Fortes e Fracos: Avaliação Crítica dos Testes de AGI

5.1 Pontos Fortes das Abordagens Psicométricas

Generalidade: As tarefas do ARC exigem raciocínio sobre padrões abstratos, não conhecimento específico de domínio.
Objetividade: O desempenho é medido pelo sucesso em tarefas não vistas, reduzindo o viés.
Escalabilidade: O conjunto de dados do ARC contém 800 tarefas, permitindo uma análise estatística robusta.

5.2 Fraquezas e Limitações

Testes de Mikhaylovskiy: Os testes de Explicação, Criação de Teorias e Criação de Negócios são muito antropocêntricos e difíceis de automatizar objetivamente. Eles exigem criatividade em nível humano e interação com o mundo real, o que pode não ser necessário para a AGI.
Limitações do ARC: Embora promissor, o ARC se concentra principalmente no raciocínio visual e pode não capturar outras dimensões da inteligência (por exemplo, raciocínio social, linguístico ou físico).
Falta de Dinâmica Temporal: A maioria dos testes é estática e não avalia a aprendizagem ao longo do tempo ou a adaptação a ambientes em mudança.

6. Insights Acionáveis: Direções Futuras

Com base na análise, o artigo sugere várias direções acionáveis:

Desenvolver Benchmarks Híbridos: Combinar tarefas psicométricas com ambientes dinâmicos e interativos para avaliar tanto o raciocínio quanto a adaptação.
Incorporar Múltiplas Modalidades: Estender o ARC para incluir tarefas de raciocínio linguístico, auditivo e físico.
Focar na Generalização Composicional: Projetar tarefas que exijam a combinação de conceitos aprendidos de maneiras novas, um aspecto fundamental da inteligência humana.
Adotar Relatórios Padronizados: Usar métricas psicométricas (por exemplo, confiabilidade, validade, teoria de resposta ao item) para garantir que os benchmarks sejam cientificamente rigorosos.

7. Detalhes Técnicos e Formulação Matemática

A abordagem psicométrica para a medição de AGI pode ser formalizada usando a Teoria de Resposta ao Item (TRI). Seja $\theta$ representando a inteligência geral latente de um agente. A probabilidade de resolver corretamente a tarefa $i$ com dificuldade $b_i$ e discriminação $a_i$ é dada pelo modelo logístico:

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

Para o benchmark ARC, cada tarefa consiste em pares de grade de entrada e saída. O agente deve inferir a transformação subjacente $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ a partir de alguns exemplos e aplicá-la a uma nova entrada. A métrica de desempenho é a precisão em tarefas não vistas, ponderada pela dificuldade da tarefa.

8. Resultados Experimentais e Análise de Benchmark

O artigo não apresenta experimentos originais, mas revisa os resultados existentes. As principais descobertas da literatura incluem:

Desempenho Humano no ARC: Os humanos alcançam aproximadamente 80-90% de precisão nas tarefas do ARC, demonstrando a viabilidade do benchmark.
Desempenho da IA: Os sistemas de IA de última geração (em 2020) alcançam menos de 30% de precisão no ARC, destacando a lacuna entre a inteligência restrita e a geral.
Comparação com Outros Benchmarks: O ARC é mais desafiador do que os testes de QI tradicionais para IA porque exige raciocínio semelhante a programação, em vez de correspondência de padrões.

Figura 1: Um gráfico de barras hipotético comparando o desempenho humano versus o da IA em tarefas ARC em diferentes níveis de dificuldade (fácil, médio, difícil). Os humanos superam consistentemente a IA, com a lacuna se ampliando em tarefas mais difíceis.

9. Estrutura Analítica: Estudo de Caso do ARC

Para ilustrar a abordagem psicométrica, considere uma tarefa ARC onde a entrada é uma grade 3x3 com células coloridas, e a saída é uma grade 3x3 com um padrão diferente. O agente deve inferir a regra (por exemplo, "girar o padrão 90 graus no sentido horário") a partir de dois exemplos e aplicá-la a uma terceira entrada.

Exemplo de Tarefa:

Entrada 1: [[0,1,0],[1,0,1],[0,1,0]] → Saída 1: [[0,1,0],[1,0,1],[0,1,0]] (nenhuma mudança, simetria)
Entrada 2: [[1,0,0],[0,1,0],[0,0,1]] → Saída 2: [[0,0,1],[0,1,0],[1,0,0]] (inverter ao longo da anti-diagonal)
Entrada de Teste: [[0,0,1],[0,1,0],[1,0,0]] → Saída Esperada: [[1,0,0],[0,1,0],[0,0,1]]

Esta tarefa exige que o agente reconheça a regra de transformação (inverter ao longo da anti-diagonal) e a aplique a um novo padrão. O valor psicométrico reside no fato de que a regra é abstrata e não está vinculada a nenhum domínio específico.

10. Aplicações Futuras e Perspectivas

A abordagem psicométrica para AGI tem várias aplicações promissoras:

Segurança da IA: Benchmarks psicométricos podem ajudar a detectar falhas inesperadas em sistemas de IA, testando a generalização para cenários novos.
Colaboração Humano-IA: Compreender o perfil cognitivo de uma IA (por exemplo, pontos fortes em raciocínio visual vs. linguístico) pode melhorar o trabalho em equipe com humanos.
IA Educacional: Estruturas psicométricas podem orientar o desenvolvimento de tutores de IA que se adaptam a estilos de aprendizagem individuais.
Neurociência: Comparar o desempenho humano e da IA em tarefas psicométricas pode lançar luz sobre a base neural da inteligência geral.

Direções futuras incluem integrar benchmarks psicométricos com ambientes de aprendizagem por reforço, desenvolver testes dinâmicos que se adaptam ao nível de habilidade do agente e criar benchmarks multimodais que avaliam o raciocínio em diferentes modalidades sensoriais.

11. Análise e Comentário Original

O artigo apresenta um argumento convincente para abordagens psicométricas para AGI, mas vários pontos críticos merecem escrutínio. Primeiro, a dependência da inteligência semelhante à humana como padrão ouro é filosoficamente questionável. Como argumentado por Bostrom (2014) em "Superinteligência", a AGI pode exibir formas de inteligência qualitativamente diferentes da cognição humana, tornando os benchmarks antropocêntricos potencialmente enganosos. Segundo, o benchmark ARC, embora elegante, pode ser muito restrito. Conforme observado por Lake et al. (2017) em "Construindo Máquinas que Aprendem e Pensam como Pessoas", a inteligência humana envolve não apenas raciocínio abstrato, mas também física intuitiva, cognição social e compreensão da linguagem. Um benchmark de inteligência verdadeiramente geral deve abranger essas dimensões. Terceiro, o artigo ignora o potencial dos testes adversariais. Como demonstrado por Goodfellow et al. (2014) no artigo original do GAN, exemplos adversariais podem revelar fraquezas fundamentais em sistemas de IA que os benchmarks padrão não detectam. Incorporar elementos adversariais em testes psicométricos poderia fornecer uma avaliação mais robusta da generalização. Finalmente, o foco do artigo na medição, em vez da arquitetura, é um ponto forte, mas corre o risco de ignorar a questão de como construir AGI. Como Yudkowsky (2008) argumenta, o problema do alinhamento requer a compreensão dos mecanismos internos dos sistemas de IA, não apenas seu comportamento externo. Apesar dessas limitações, o artigo fornece uma estrutura valiosa para pensar sobre a avaliação de AGI e enfatiza corretamente a necessidade de benchmarks rigorosos e psicometricamente válidos.

12. Referências

McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
Thomson, W. (1889). Popular Lectures and Addresses.
Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.