2.1 対話の一貫性と顕著性
複数のターンにわたって論理的に一貫し、話題に関連した会話を維持すること。常識がなければ、モデルは文法的には正しいが、意味的に不合理または無関係な応答を生成してしまう。
本サーベイ論文は、現代の対話AIシステムに常識推論を統合するという重要な課題に取り組む。BERT、GPT、T5などの大規模事前学習言語モデルは、構文や文脈の理解において顕著な成功を収めているが、人間が当然のものとしている暗黙的な世界知識を根本的に欠いている。本論文は、このギャップが、AIが真に自然で一貫性があり、知的な対話を行うことを妨げる主要なボトルネックであると論じる。ジョージア工科大学のChristopher RichardsonとLarry Heckは、この新興かつ重要な分野における将来の研究を導くために、現在の状況(手法、データセット、評価)をマッピングする必要がある作業として、自らの研究を位置づけている。
本論文は、常識の欠如が最も顕著に現れる特定の対話タスクを明らかにする。
複数のターンにわたって論理的に一貫し、話題に関連した会話を維持すること。常識がなければ、モデルは文法的には正しいが、意味的に不合理または無関係な応答を生成してしまう。
明示されていない前提を必要とする質問に答えたり、指示を完了したりすること。例えば、「やかんを沸かす」という指示には、明示されていなくてもその次のステップが「お湯を注ぐ」ことを意味する、という理解が含まれる。
ユーモア、皮肉、共感、社会的規範を理解すること。これには、現在のモデルが主に統計的に推論するだけで理解していない、人間の心理と社会的慣習に関する深いモデルが必要である。
本サーベイは、文献で探求されている主要な技術的アプローチを分類する。
常識知識が豊富なデータセット(例:ATOMIC、SocialIQA)で大規模言語モデル(LLM)をさらに訓練する。このアプローチは、常識をモデルのパラメータに暗黙的に組み込むことを目指す。
ConceptNetやATOMICのような構造化された知識ベースにモデルを明示的に接続する。モデルは推論中にこれらのグラフを検索したり、グラフ上で推論を行ったりする。重要な例はCOMET(Bosselut et al., 2019)であり、これらのグラフから新しい知識タプルを生成するように訓練されたトランスフォーマーモデルである。
モデルを訓練して、答えだけでなく、自然言語による推論の過程や説明も生成させる。これにより、モデルは暗黙的なステップを明確に表現することを強制され、堅牢性の向上が期待できる。
標準的な精度に加えて、この分野では以下のような指標が使用される:
著者らは、主要なオープンダイアログモデルであるBlenderBot 3とLaMDAについて、批判的かつ実践的な分析を提示している。彼らの観察は厳しいものである:これらのモデルの規模と洗練度にもかかわらず、些細な常識タスクで頻繁に失敗する。例としては、会話内で矛盾する発言を生成したり、基本的な物理的制約を理解できなかったりすることが挙げられる。この経験的証拠は、本論文の中心的な主張を力強く裏付けている:ベンチマークでの性能は、オープンエンドな相互作用における堅牢で使用可能な常識と同等ではない。
核心的洞察: 対話AI分野は深刻な「常識負債」を抱えている。我々は不安定で暗黙的な基礎の上に超高層ビル(巨大なLLM)を建ててしまった。本サーベイは、核心的な問題は手法の不足ではなく、現代NLPの統計的・パターンマッチング的な性質と、人間の常識の記号的・因果的・類推的な性質との間の根本的なミスマッチであると正しく指摘している。Chollet(2019)の画期的な研究「On the Measure of Intelligence」で述べられているように、真の知性には、新しい状況における技能の獲得と一般化が必要であり、それは豊かな世界モデルなしには不可能な偉業である。
論理的流れ: 本論文の構造は論理的で説得力がある。問題とその現れを定義し(セクション1-2)、試みられた工学的解決策を分類し(セクション3)、進歩の測定方法を検討し(セクション4)、最後に現在の解決策が不十分であるという具体的な証拠を提供する(セクション5)という流れである。この流れは科学的方法を反映している:仮説(常識が欠如している)、実験(様々な統合手法)、測定(ベンチマーク)、結論(解決されていない)。
長所と欠点: 本論文の最大の長所は、SOTAモデルに対する具体的で批判的な評価である。学術的な抽象論を超えて、実際の失敗モードを示している。サーベイ論文に共通する主な欠点は、記述的であり規範的でないことである。領域をマッピングするが、どの道筋が最も有望であるかについての指針は限られている。因果推論のための純粋なトランスフォーマーベースのモデルのアーキテクチャ的限界を軽視しており、この点はMITのCSAILなどの研究機関によるニューロシンボリック統合の研究で強く強調されている。
実践的洞察: 実務家や研究者にとって、得られる教訓は明らかである:常識を単なるファインチューニング用の別のデータセットとして扱うのをやめるべきだ。この分野にはパラダイムシフトが必要である。1) ニューロシンボリック・アーキテクチャへの投資: ニューラルネットワークと明示的で操作可能な知識表現(Differentiable Inductive Logic Programmingの研究など)を組み合わせたハイブリッドモデルは必要な方向性である。2) より優れたシミュレーション環境の開発: 強化学習のためのOpenAIのGymのように、エージェントがテキストだけでなく、身体化された経験と結果を通じて常識を学べる、豊かでインタラクティブなシミュレーター(AllenAIのTHORのようなプラットフォームに触発されたもの)が必要である。3) 評価の再考: 静的QAベンチマークから、モデルが時間の経過とともに一貫した世界理解を示さなければならない動的でインタラクティブな評価へと移行する。これはARC(Abstraction and Reasoning Corpus)チャレンジの背後にある原則と類似している。
知識グラフのグラウンディングアプローチでは、多くの場合、検索拡張生成フレームワークが用いられる。形式的には、対話文脈 $C$ が与えられたとき、モデルは知識グラフ $\mathcal{G}$ から関連する常識知識タプルの集合 $K = \{(h_i, r_i, t_i)\}$ を検索する。ここで、$h$ は頭エンティティ、$r$ は関係、$t$ は尾エンティティである。最終的な応答 $R$ は、$C$ と $K$ の両方を条件として生成される:
$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$
COMETのようなモデルは、トランスフォーマー(例:GPT-2)をファインチューニングして、$(h, r)$ が与えられたときに尾エンティティ $t$ を予測することでこれを実装し、潜在空間でグラフを走査することを効果的に学習する:$t = \text{COMET}(h, r)$。
PDFプレビューには明示的なチャートは含まれていないが、記述されている予備的観察は、大きな性能ギャップを示唆している。一連の常識対話タスク(例:一貫性、物理的推論、社会的推論)における人間の性能とBlenderBot3およびLaMDAを比較する仮想的な棒グラフを概念化できる。Y軸はスコア(0-100)を表す。チャートは以下を示すだろう:
シナリオ: 単純な物語に対する対話エージェントの理解を評価する。
対話文脈: ユーザー:「新しい子犬を飼い始めたんだ!すごく元気がいいよ。ドアの呼び鈴に応答している間、リビングに私のお気に入りの靴と一緒に置いてきた。」
エージェント応答A(常識欠如): 「それはいいね。その靴は何色?」
エージェント応答B(常識あり): 「あら大変!その靴を確認した方がいいかも。子犬は噛むのが好きだからね。」
フレームワーク分析:
常識推論が解決されれば、変革的な応用が可能になる: