1. Introdução

Este artigo de revisão aborda o desafio crítico de integrar o raciocínio de senso comum aos sistemas modernos de IA conversacional. Embora os grandes modelos de linguagem pré-treinados (por exemplo, BERT, GPT, T5) tenham alcançado sucesso notável na compreensão de sintaxe e contexto, eles carecem fundamentalmente do conhecimento implícito e mundano que os humanos consideram garantido. O artigo argumenta que essa lacuna é o principal gargalo que impede a IA de se envolver em diálogos verdadeiramente naturais, coerentes e inteligentes. Os autores, Christopher Richardson e Larry Heck da Georgia Tech, posicionam seu trabalho como um mapeamento necessário do panorama atual — métodos, conjuntos de dados e avaliação — para orientar pesquisas futuras neste campo nascente, mas vital.

2. Raciocínio de Senso Comum em Problemas de IA Conversacional

O artigo delineia tarefas conversacionais específicas onde a falha de senso comum é mais aparente.

2.1 Coerência e Saliência no Diálogo

Manter uma conversa logicamente consistente e tematicamente relevante ao longo de múltiplos turnos. Sem senso comum, os modelos geram respostas sintaticamente corretas, mas semanticamente absurdas ou irrelevantes.

2.2 Resposta a Perguntas e Conclusão de Tarefas

Responder perguntas ou completar instruções que exigem suposições não declaradas. Por exemplo, entender que "ferver a chaleira" implica que o passo subsequente é "despejar a água", mesmo que não seja explicitamente declarado.

2.3 Conversa Casual e Interação Social

Compreender humor, sarcasmo, empatia e normas sociais. Isso requer um modelo profundo da psicologia humana e das convenções sociais, que os modelos atuais em grande parte inferem estatisticamente, em vez de compreender.

3. Métodos para Integrar Senso Comum

A revisão categoriza as principais abordagens técnicas exploradas na literatura.

3.1 Ajuste Fino de Modelos

Treinar ainda mais grandes modelos de linguagem (LLMs) em conjuntos de dados ricos em conhecimento de senso comum (por exemplo, ATOMIC, SocialIQA). Esta abordagem visa incorporar o senso comum aos parâmetros do modelo de forma implícita.

3.2 Ancoragem em Grafos de Conhecimento

Conectar explicitamente o modelo a bases de conhecimento estruturadas como o ConceptNet ou ATOMIC. O modelo recupera ou raciocina sobre esses grafos durante a inferência. Um exemplo-chave é o COMET (Bosselut et al., 2019), um modelo transformer treinado para gerar novas tuplas de conhecimento a partir desses grafos.

3.3 Explicações em Linguagem Natural

Treinar modelos para gerar não apenas uma resposta, mas também um rastro de raciocínio ou explicação em linguagem natural. Isso força o modelo a articular os passos implícitos, potencialmente melhorando a robustez.

4. Benchmarks e Métricas de Avaliação

4.1 Conjuntos de Dados Comuns

  • CommonsenseQA: Perguntas e respostas de múltipla escolha que exigem senso comum.
  • SocialIQA: Foca no senso comum social e emocional.
  • PIQA: Senso comum físico para seguir instruções.
  • DialogRE: Raciocínio sobre relações dentro de diálogos.

4.2 Métricas de Avaliação

Além da precisão padrão, o campo utiliza métricas como:

  • Avaliação Humana: Para coerência, interesse e sensatez.
  • Knowledge-F1: Medindo a sobreposição com fatos de conhecimento verdadeiros.
  • Correção da Cadeia de Raciocínio: Avaliando a solidez lógica das explicações geradas.

5. Observações Preliminares sobre Modelos de Última Geração

Os autores apresentam uma análise crítica e prática dos principais modelos de diálogo aberto, BlenderBot 3 e LaMDA. Suas observações são contundentes: apesar da escala e sofisticação desses modelos, eles frequentemente falham em tarefas triviais de senso comum. Exemplos incluem gerar declarações contraditórias dentro de uma conversa ou não entender restrições físicas básicas. Esta evidência empírica reforça poderosamente a tese central do artigo: o desempenho em benchmarks não equivale a um senso comum robusto e utilizável em interação aberta.

6. Análise e Insight Central

Insight Central: O campo da IA conversacional sofre de uma severa "dívida de senso comum". Construímos arranha-céus (LLMs massivos) sobre fundações implícitas e instáveis. A revisão identifica corretamente que o problema central não é a falta de técnicas, mas uma incompatibilidade fundamental entre a natureza estatística e de correspondência de padrões do PLN moderno e a natureza simbólica, causal e analógica do senso comum humano. Como observado no trabalho seminal "On the Measure of Intelligence" de Chollet (2019), a verdadeira inteligência requer aquisição de habilidades e generalização em situações novas — uma façanha impossível sem um modelo rico do mundo.

Fluxo Lógico: A estrutura do artigo é lógica e persuasiva. Ela passa da definição do problema e suas manifestações (Seções 1-2), para catalogar as soluções de engenharia tentadas (Seção 3), para examinar como medimos o progresso (Seção 4), e finalmente fornecer evidências concretas de que as soluções atuais são inadequadas (Seção 5). Este fluxo espelha o método científico: hipótese (falta senso comum), experimentação (vários métodos de integração), medição (benchmarks) e conclusão (não resolvido).

Pontos Fortes e Fracos: O maior ponto forte do artigo é sua avaliação crítica e concreta dos modelos SOTA. Ele vai além das abstrações acadêmicas para mostrar modos de falha reais. Sua principal falha, comum a revisões, é sua natureza descritiva em vez de prescritiva. Ele mapeia o território, mas oferece orientação limitada sobre quais caminhos são mais promissores. Ele subestima as limitações arquitetônicas dos modelos puramente baseados em transformers para raciocínio causal, um ponto fortemente enfatizado em pesquisas de instituições como o CSAIL do MIT sobre integração neuro-simbólica.

Insights Acionáveis: Para profissionais e pesquisadores, a conclusão é clara: parem de tratar o senso comum como apenas outro conjunto de dados para ajuste fino. O campo precisa de uma mudança de paradigma. 1) Invista em Arquiteturas Neuro-Simbólicas: Modelos híbridos que combinam redes neurais com representações de conhecimento explícitas e manipuláveis (como o trabalho em Differentiable Inductive Logic Programming) são uma direção necessária. 2) Desenvolva Ambientes Simulados Melhores: Como o Gym da OpenAI para aprendizado por reforço, precisamos de simuladores interativos ricos (inspirados em plataformas como o THOR da AllenAI) onde agentes possam aprender senso comum através de experiência e consequência incorporadas, não apenas texto. 3) Repense a Avaliação: Mude de benchmarks estáticos de QA para avaliação dinâmica e interativa, onde os modelos devem demonstrar compreensão consistente do mundo ao longo do tempo, semelhante aos princípios por trás do desafio ARC (Abstraction and Reasoning Corpus).

7. Detalhes Técnicos

A abordagem de ancoragem em grafos de conhecimento frequentemente envolve uma estrutura de geração aumentada por recuperação. Formalmente, dado um contexto de diálogo $C$, o modelo recupera um conjunto de tuplas de conhecimento de senso comum relevantes $K = \{(h_i, r_i, t_i)\}$ de um grafo de conhecimento $\mathcal{G}$, onde $h$ é uma entidade cabeça, $r$ uma relação e $t$ uma entidade cauda. A resposta final $R$ é gerada condicionando tanto em $C$ quanto em $K$:

$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$

Modelos como o COMET implementam isso ajustando um transformer (por exemplo, GPT-2) para prever a entidade cauda $t$ dado $(h, r)$, efetivamente aprendendo a percorrer o grafo em um espaço latente: $t = \text{COMET}(h, r)$.

8. Resultados Experimentais & Descrição de Gráfico

Embora a prévia do PDF não contenha gráficos explícitos, as observações preliminares descritas implicam uma lacuna de desempenho significativa. Podemos conceituar um gráfico de barras hipotético comparando o desempenho humano versus BlenderBot3 e LaMDA em uma série de tarefas de diálogo de senso comum (por exemplo, Coerência, Raciocínio Físico, Raciocínio Social). O eixo Y representaria uma pontuação (0-100). O gráfico mostraria:

  • Desempenho Humano: Uma barra consistentemente alta (~90-95) em todas as categorias de tarefas.
  • Modelos SOTA (BlenderBot3/LaMDA): Barras mostrando alta variância — talvez ~80 em Coerência (onde podem imitar padrões), mas caindo abruptamente para ~50-60 em tarefas de Raciocínio Físico e Social que exigem compreensão mais profunda. As barras de erro seriam grandes, indicando inconsistência.
  • Conclusão Principal: A lacuna visual, especialmente no raciocínio físico e social, ilustraria claramente a afirmação do artigo sobre a limitação fundamental, não a necessidade de uma melhoria incremental.

9. Exemplo de Estrutura de Análise

Cenário: Avaliando a compreensão de um agente conversacional sobre uma narrativa simples.

Contexto do Diálogo: Utilizador: "Acabei de adotar um cachorrinho novo! Ele é tão enérgico. Deixei-o na sala de estar com os meus sapatos favoritos enquanto atendi a porta."

Resposta do Agente A (Faltando Senso Comum): "Que bom. De que cor são os seus sapatos?"

Resposta do Agente B (Com Senso Comum): "Oh não, é melhor verificar esses sapatos! Cachorrinhos adoram morder."

Análise da Estrutura:

  1. Recuperação de Conhecimento: O modelo acessa tuplas como (cachorrinho, ÉCapazDe, morder), (sapato, ÉFeitoDe, couro/tecido), (morder, Causa, dano)?
  2. Raciocínio Causal: Ele consegue encadear esses fatos: cachorrinho novo + enérgico + sem supervisão + objeto mastigável → alta probabilidade de dano.
  3. Raciocínio Social/Pragmático: Ele infere a preocupação não declarada do utilizador (preocupação com os sapatos) e gera um aviso relevante e empático?
A Resposta A falha em todos os três. A Resposta B demonstra a aplicação bem-sucedida desta estrutura implícita. Os modelos SOTA atuais gerariam a Resposta A uma percentagem não trivial das vezes.

10. Aplicações Futuras & Direções

Resolver o raciocínio de senso comum desbloqueará aplicações transformadoras:

  • Verdadeiros Assistentes Pessoais de IA: Agentes que podem gerir proativamente tarefas complexas ("Encomenda mantimentos para a semana considerando a minha agenda, objetivos dietéticos e o que já está no frigorífico").
  • Tutores Educacionais Avançados: Sistemas que podem diagnosticar o mal-entendido de um aluno modelando seu estado mental e gerando explicações socráticas.
  • Companheiros de Saúde Mental: Chatbots capazes de apoio emocional matizado e deteção de crises através da compreensão de normas sociais e psicológicas.
  • Agentes Autónomos em Mundos Virtuais: NPCs em jogos ou metaversos que se comportam com motivações críveis, objetivos de longo prazo e compreensão do seu ambiente.
  • Direção de Pesquisa: O futuro reside na aprendizagem incorporada e multimodal (aprender com vídeo, áudio e interação física), modelos de mundo causais que permitem raciocínio contrafactual, e grafos de conhecimento de senso comum em grande escala e curados que são atualizados dinamicamente por sistemas de IA como o COMET.

11. Referências

  1. Richardson, C., & Heck, L. (2023). Commonsense Reasoning for Conversational AI: A Survey of the State of the Art. Workshop on Knowledge Augmented Methods for NLP, AAAI 2023.
  2. Bosselut, A., Rashkin, H., Sap, M., Malaviya, C., Celikyilmaz, A., & Choi, Y. (2019). COMET: Commonsense Transformers for Automatic Knowledge Graph Construction. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
  3. Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. Proceedings of the AAAI Conference on Artificial Intelligence.
  4. Sap, M., Le Bras, R., Allaway, E., Bhagavatula, C., Lourie, N., Rashkin, H., ... & Choi, Y. (2019). ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning. Proceedings of the AAAI Conference on Artificial Intelligence.
  5. Chollet, F. (2019). On the Measure of Intelligence. arXiv preprint arXiv:1911.01547.
  6. Storks, S., Gao, Q., & Chai, J. Y. (2019). Recent Advances in Natural Language Inference: A Survey of Benchmarks, Resources, and Approaches. arXiv preprint arXiv:1904.01172.
  7. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems.