2.1 Diyalog Tutarlılığı ve Önemlilik
Birden fazla tur boyunca mantıksal olarak tutarlı ve konuyla ilgili bir sohbet sürdürmek. Sağduyu olmadan, modeller sözdizimsel olarak doğru ancak anlamsal olarak saçma veya ilgisiz yanıtlar üretir.
Bu inceleme makalesi, sağduyu akıl yürütmenin modern sohbet yapay zekası sistemlerine entegre edilmesi gibi kritik bir zorluğu ele almaktadır. Büyük önceden eğitilmiş dil modelleri (örn., BERT, GPT, T5) sözdizimi ve bağlamı anlamada kayda değer başarılar elde etmiş olsa da, temelde insanların kanıksadığı örtük, dünyevi bilgiden yoksundurlar. Makale, bu boşluğun yapay zekanın gerçekten doğal, tutarlı ve akıllı diyaloglara girmesini engelleyen birincil darboğaz olduğunu savunmaktadır. Georgia Tech'ten Christopher Richardson ve Larry Heck, çalışmalarını bu yeni ancak hayati alandaki gelecek araştırmalara rehberlik etmek için mevcut manzaranın—yöntemler, veri kümeleri ve değerlendirme—gerekli bir haritalaması olarak konumlandırmaktadır.
Makale, sağduyu eksikliğinin en belirgin olduğu belirli sohbet görevlerini tanımlamaktadır.
Birden fazla tur boyunca mantıksal olarak tutarlı ve konuyla ilgili bir sohbet sürdürmek. Sağduyu olmadan, modeller sözdizimsel olarak doğru ancak anlamsal olarak saçma veya ilgisiz yanıtlar üretir.
Açıkça belirtilmemiş varsayımlar gerektiren soruları yanıtlamak veya talimatları tamamlamak. Örneğin, "kettle'ı kaynat" ifadesinin, açıkça belirtilmese bile, sonraki adımın "suyu dök" olduğunu ima ettiğini anlamak.
Mizahı, ironiyi, empatiyi ve sosyal normları anlamak. Bu, mevcut modellerin büyük ölçüde istatistiksel olarak çıkarsadığı, anlamadığı, insan psikolojisi ve sosyal kuralların derin bir modelini gerektirir.
İnceleme, literatürde araştırılan birincil teknik yaklaşımları kategorize etmektedir.
Büyük dil modellerini (LLM) sağduyu bilgisi açısından zengin veri kümeleri (örn., ATOMIC, SocialIQA) üzerinde daha fazla eğitmek. Bu yaklaşım, sağduyuyu modelin parametrelerine örtük olarak yerleştirmeyi amaçlamaktadır.
Modeli ConceptNet veya ATOMIC gibi yapılandırılmış bilgi tabanlarına açıkça bağlamak. Model, çıkarım sırasında bu grafikler üzerinden bilgi alır veya akıl yürütür. Önemli bir örnek, bu grafiklerden yeni bilgi demetleri üretmek için eğitilmiş bir dönüştürücü model olan COMET'tir (Bosselut ve diğerleri, 2019).
Modelleri sadece bir cevap değil, aynı zamanda doğal dilde bir akıl yürütme izi veya açıklama üretecek şekilde eğitmek. Bu, modeli örtük adımları ifade etmeye zorlayarak potansiyel olarak sağlamlığı artırır.
Standart doğruluk ötesinde, alan şu metrikleri kullanır:
Yazarlar, önde gelen açık diyalog modelleri BlenderBot 3 ve LaMDA üzerinde kritik, uygulamalı bir analiz sunmaktadır. Gözlemleri çarpıcıdır: bu modellerin ölçeğine ve karmaşıklığına rağmen, sıradan sağduyu görevlerinde sıklıkla başarısız olmaktadırlar. Örnekler arasında bir konuşma içinde çelişkili ifadeler üretmek veya temel fiziksel kısıtlamaları anlayamamak yer alır. Bu ampirik kanıt, makalenin temel tezini güçlü bir şekilde vurgulamaktadır: kıyaslama performansı, açık uçlu etkileşimde sağlam, kullanılabilir sağduyu ile eşdeğer değildir.
Temel İçgörü: Sohbet yapay zekası alanı ciddi bir "sağduyu borcu" çekmektedir. Sallantılı, örtük temeller üzerine gökdelenler (devasa LLM'ler) inşa ettik. İnceleme, temel sorunun teknik eksikliği değil, modern NLP'nin istatistiksel, örüntü eşleştirme doğası ile insan sağduyusunun sembolik, nedensel ve analojik doğası arasındaki temel bir uyumsuzluk olduğunu doğru bir şekilde tespit etmektedir. Chollet'in (2019) "Zekanın Ölçüsü Üzerine" adlı temel çalışmasında belirtildiği gibi, gerçek zeka, yeni durumlarda beceri edinimi ve genelleme gerektirir—bu, zengin bir dünya modeli olmadan imkansız bir başarıdır.
Mantıksal Akış: Makalenin yapısı mantıklı ve ikna edicidir. Sorunu ve tezahürlerini tanımlamaktan (Bölüm 1-2), denenmiş mühendislik çözümlerini kataloglamaya (Bölüm 3), ilerlemeyi nasıl ölçtüğümüzü incelemeye (Bölüm 4) ve nihayetinde mevcut çözümlerin yetersiz olduğuna dair somut kanıtlar sunmaya (Bölüm 5) doğru ilerler. Bu akış bilimsel yöntemi yansıtır: hipotez (sağduyu eksik), deney (çeşitli entegrasyon yöntemleri), ölçüm (kıyaslamalar) ve sonuç (çözülmedi).
Güçlü ve Zayıf Yönler: Makalenin en büyük gücü, Güncel Teknoloji modellerinin somut, eleştirel değerlendirmesidir. Akademik soyutlamaların ötesine geçerek gerçek başarısızlık modlarını göstermektedir. İncelemelerde yaygın olan birincil zayıflığı, tanımlayıcı olması ve reçete edici olmamasıdır. Bölgeyi haritalandırır ancak hangi yolların en umut verici olduğu konusunda sınırlı rehberlik sunar. MIT CSAIL gibi kurumlardan nöro-sembolik entegrasyon araştırmalarında ağırlıkla vurgulanan bir nokta olan, saf dönüştürücü tabanlı modellerin nedensel akıl yürütme için mimari sınırlamalarını hafife almaktadır.
Uygulanabilir İçgörüler: Uygulayıcılar ve araştırmacılar için çıkarım açıktır: sağduyuyu sadece üzerinde ince ayar yapılacak başka bir veri kümesi olarak görmeyi bırakın. Alana bir paradigma değişikliği gerekmektedir. 1) Nöro-Sembolik Mimariye Yatırım Yapın: Sinir ağlarını açık, manipüle edilebilir bilgi temsilleriyle (Türevlenebilir Tümevarımsal Mantık Programlama üzerine yapılan çalışma gibi) birleştiren hibrit modeller gerekli bir yöndür. 2) Daha İyi Simüle Edilmiş Ortamlar Geliştirin: Takviyeli öğrenme için OpenAI'nin Gym'i gibi, ajanların sadece metinden değil, somutlaşmış deneyim ve sonuçlar yoluyla sağduyu öğrenebileceği zengin, etkileşimli simülatörlere (AllenAI'nin THOR gibi platformlarından ilham alarak) ihtiyacımız var. 3) Değerlendirmeyi Yeniden Düşünün: Statik soru-cevap kıyaslamalarından, modellerin zaman içinde tutarlı bir dünya anlayışı göstermesi gereken dinamik, etkileşimli değerlendirmeye geçin, ARC (Soyutlama ve Akıl Yürütme Derlemi) mücadelesinin arkasındaki ilkelere benzer şekilde.
Bilgi grafiği temellendirme yaklaşımı, genellikle bir alıcı-güçlendirilmiş üretim çerçevesi içerir. Biçimsel olarak, bir diyalog bağlamı $C$ verildiğinde, model, bir bilgi grafiği $\mathcal{G}$'den ilgili sağduyu bilgisi demetleri $K = \{(h_i, r_i, t_i)\}$ kümesini alır; burada $h$ bir baş varlık, $r$ bir ilişki ve $t$ bir kuyruk varlıktır. Son yanıt $R$, hem $C$ hem de $K$'ya koşullandırılarak üretilir:
$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$
COMET gibi modeller bunu, $(h, r)$ verildiğinde kuyruk varlığı $t$'yi tahmin etmek için bir dönüştürücüyü (örn., GPT-2) ince ayarlayarak, grafiği gizli bir uzayda gezinmeyi etkin bir şekilde öğrenerek uygular: $t = \text{COMET}(h, r)$.
PDF önizlemesi açık grafikler içermese de, tanımlanan ön gözlemler önemli bir performans boşluğunu ima etmektedir. Bir dizi sağduyu diyalog görevinde (örn., Tutarlılık, Fiziksel Akıl Yürütme, Sosyal Akıl Yürütme) insan performansı ile BlenderBot3 ve LaMDA'yı karşılaştıran varsayımsal bir çubuk grafik kavramsallaştırabiliriz. Y ekseni bir puanı (0-100) temsil eder. Grafik şunları gösterecektir:
Senaryo: Bir sohbet asistanının basit bir anlatıyı anlayışını değerlendirme.
Diyalog Bağlamı: Kullanıcı: "Yeni bir köpek yavrusu aldım! Çok enerjik. Kapıyı açmaya giderken onu en sevdiğim ayakkabılarımla birlikte oturma odasında bıraktım."
Asistan Yanıtı A (Sağduyu Eksik): "Ne güzel. Ayakkabıların rengi ne?"
Asistan Yanıtı B (Sağduyu ile): "Ay, o ayakkabılara bir bakmak isteyebilirsin! Yavru köpekler çiğnemeyi sever."
Çerçeve Analizi:
Sağduyu akıl yürütmeyi çözmek, dönüştürücü uygulamaların kilidini açacaktır: