2.1 대화 일관성과 관련성
여러 차례의 대화를 거치며 논리적으로 일관되고 주제와 관련성 있는 대화를 유지하는 것. 상식이 없으면 모델은 구문적으로는 올바르지만 의미론적으로는 터무니없거나 무관한 응답을 생성합니다.
본 조사 논문은 현대 대화형 AI 시스템에 상식 추론을 통합하는 중요한 과제를 다룹니다. BERT, GPT, T5와 같은 대규모 사전 학습 언어 모델이 구문과 문맥 이해에서 놀라운 성과를 거두었지만, 인간이 당연시하는 암묵적이고 세상에 대한 지식이 근본적으로 부족합니다. 이 논문은 이러한 격차가 AI가 진정으로 자연스럽고, 일관되며, 지능적인 대화에 참여하는 것을 막는 주요 병목 현상이라고 주장합니다. 조지아 공대의 Christopher Richardson과 Larry Heck는 이 신생이면서도 중요한 분야의 향후 연구를 안내하기 위해 현재의 방법론, 데이터셋, 평가 체계를 매핑하는 작업이 필요하다고 제시합니다.
이 논문은 상식 부재가 가장 명확하게 드러나는 특정 대화 과제들을 설명합니다.
여러 차례의 대화를 거치며 논리적으로 일관되고 주제와 관련성 있는 대화를 유지하는 것. 상식이 없으면 모델은 구문적으로는 올바르지만 의미론적으로는 터무니없거나 무관한 응답을 생성합니다.
명시되지 않은 가정을 필요로 하는 질문에 답하거나 지시를 완료하는 것. 예를 들어, "주전자를 끓여"라는 말이 명시적으로 언급되지 않았더라도 다음 단계가 "물을 붓는" 것임을 이해하는 것입니다.
유머, 비꼼, 공감, 사회적 규범을 이해하는 것. 이는 인간 심리와 사회적 관습에 대한 깊은 모델을 필요로 하며, 현재 모델들은 이를 이해하기보다는 주로 통계적으로 추론합니다.
본 조사는 문헌에서 탐구된 주요 기술적 접근법들을 분류합니다.
상식 지식이 풍부한 데이터셋(예: ATOMIC, SocialIQA)을 사용하여 대규모 언어 모델(LLM)을 추가로 학습시키는 방법. 이 접근법은 상식을 모델의 매개변수에 암묵적으로 내재시키는 것을 목표로 합니다.
모델을 ConceptNet이나 ATOMIC과 같은 구조화된 지식 베이스에 명시적으로 연결하는 방법. 모델은 추론 과정에서 이러한 그래프를 검색하거나 그래프를 기반으로 추론합니다. 대표적인 예로는 이러한 그래프에서 새로운 지식 튜플을 생성하도록 학습된 트랜스포머 모델인 COMET(Bosselut 외, 2019)이 있습니다.
모델이 답변뿐만 아니라 자연어로 된 추론 과정이나 설명도 생성하도록 학습시키는 방법. 이는 모델이 암묵적인 단계를 명시적으로 표현하도록 강제하여 견고성을 향상시킬 수 있습니다.
표준 정확도 외에도, 이 분야에서는 다음과 같은 지표들을 사용합니다:
저자들은 선도적인 오픈 다이얼로그 모델인 BlenderBot 3와 LaMDA에 대해 비판적이고 실질적인 분석을 제시합니다. 그들의 관찰은 가혹합니다: 이러한 모델들의 규모와 정교함에도 불구하고, 사소한 상식 과제에서 자주 실패합니다. 예를 들어 대화 내에서 모순된 진술을 생성하거나 기본적인 물리적 제약을 이해하지 못하는 경우가 있습니다. 이 경험적 증거는 논문의 중심 주제를 강력하게 뒷받침합니다: 벤치마크 성능이 개방형 상호작용에서 견고하고 사용 가능한 상식과 동일하지 않다는 것입니다.
핵심 통찰: 대화형 AI 분야는 심각한 "상식 부채"를 겪고 있습니다. 우리는 불안정하고 암묵적인 기초 위에 고층 빌딩(대규모 LLM)을 지었습니다. 본 조사는 핵심 문제가 기술의 부재가 아니라, 현대 NLP의 통계적, 패턴 매칭적 성격과 인간 상식의 상징적, 인과적, 유추적 성격 사이의 근본적인 불일치에 있음을 올바르게 지적합니다. Chollet(2019)의 선구적인 작업 "On the Measure of Intelligence"에서 언급된 바와 같이, 진정한 지능은 새로운 상황에서의 기술 습득과 일반화를 필요로 하며, 이는 풍부한 세계 모델 없이는 불가능한 업적입니다.
논리적 흐름: 논문의 구조는 논리적이고 설득력 있습니다. 문제 정의와 그 발현(1-2장)에서 시작하여, 시도된 공학적 해결책을 분류(3장)하고, 진전을 측정하는 방법을 검토(4장)하며, 마지막으로 현재 해결책이 불충분하다는 구체적인 증거를 제시(5장)하는 흐름입니다. 이 흐름은 과학적 방법을 반영합니다: 가설(상식 부재), 실험(다양한 통합 방법), 측정(벤치마크), 결론(해결되지 않음).
강점과 약점: 이 논문의 가장 큰 강점은 최신 모델에 대한 구체적이고 비판적인 평가입니다. 학문적 추상화를 넘어 실제 실패 모드를 보여줍니다. 조사 논문의 일반적인 약점인 기술적이기보다는 규범적이지 않은 성격이 주요 결함입니다. 영역을 매핑하지만 어떤 경로가 가장 유망한지에 대한 제한된 지침만 제공합니다. 인과 추론을 위한 순수 트랜스포머 기반 모델의 구조적 한계를 과소평가하는데, 이는 MIT CSAIL 등의 연구 기관에서 강조하는 신경-상징 통합 연구에서 강조되는 점입니다.
실행 가능한 통찰: 실무자와 연구자들에게 명확한 교훈은 다음과 같습니다: 상식을 단순히 미세 조정할 또 다른 데이터셋으로 취급하는 것을 멈추십시오. 이 분야는 패러다임 전환이 필요합니다. 1) 신경-상징 구조에 투자: 신경망과 명시적이고 조작 가능한 지식 표현(예: Differentiable Inductive Logic Programming 연구)을 결합한 하이브리드 모델은 필수적인 방향입니다. 2) 더 나은 시뮬레이션 환경 개발: 강화 학습을 위한 OpenAI의 Gym처럼, 에이전트가 단순히 텍스트가 아닌 체화된 경험과 결과를 통해 상식을 배울 수 있는 풍부한 상호작용 시뮬레이터(AllenAI의 THOR와 같은 플랫폼에서 영감을 받은)가 필요합니다. 3) 평가 재고: 정적 QA 벤치마크에서 동적, 상호작용적 평가로 전환하여, 모델이 시간이 지남에 따라 일관된 세계 이해를 입증해야 합니다. 이는 ARC(Abstraction and Reasoning Corpus) 챌린지의 원리와 유사합니다.
지식 그래프 기반 접근법은 종종 검색 증강 생성 프레임워크를 포함합니다. 공식적으로, 대화 문맥 $C$가 주어졌을 때, 모델은 지식 그래프 $\mathcal{G}$에서 관련 상식 지식 튜플 집합 $K = \{(h_i, r_i, t_i)\}$를 검색합니다. 여기서 $h$는 헤드 엔티티, $r$은 관계, $t$는 테일 엔티티입니다. 최종 응답 $R$은 $C$와 $K$ 모두에 조건을 걸어 생성됩니다:
$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$
COMET과 같은 모델은 $(h, r)$이 주어졌을 때 테일 엔티티 $t$를 예측하도록 트랜스포머(예: GPT-2)를 미세 조정하여 이를 구현하며, 잠재 공간에서 그래프를 탐색하는 법을 효과적으로 학습합니다: $t = \text{COMET}(h, r)$.
PDF 미리보기에 명시적인 차트가 포함되어 있지는 않지만, 설명된 예비 관찰은 상당한 성능 격차를 암시합니다. 우리는 일련의 상식 대화 과제(예: 일관성, 물리적 추론, 사회적 추론)에서 인간 성능 대 BlenderBot3 및 LaMDA를 비교하는 가상의 막대 그래프를 개념화할 수 있습니다. Y축은 점수(0-100)를 나타냅니다. 차트는 다음을 보여줄 것입니다:
시나리오: 대화 에이전트의 간단한 서사 이해 평가.
대화 문맥: 사용자: "방금 새 강아지를 데려왔어요! 정말 활발해요. 제가 문을 열어주는 동안 제가 가장 좋아하는 신발과 함께 거실에 두고 왔어요."
에이전트 응답 A (상식 부재): "좋네요. 신발은 무슨 색이에요?"
에이전트 응답 B (상식 있음): "아이고, 그 신발 좀 확인해보셔야겠어요! 강아지들은 씹는 걸 좋아하거든요."
프레임워크 분석:
상식 추론을 해결하면 혁신적인 응용 분야가 열릴 것입니다: