2.1 درک گفتگو
مدلها باید قصدهای بیاننشده را استنباط کنند، ابهامات را حل کنند و بافت ضمنی را درک کنند. برای مثال، درک اینکه «من دارم به فروشگاه میدوم» دلالت بر وسیله نقلیه و قصد خرید دارد، نه صرفاً حرکت فیزیکی.
این مقاله مروری به چالش حیاتی ادغام استدلال عقلسلیم در سیستمهای پیشرفته هوش مصنوعی گفتگومحور میپردازد. در حالی که مدلهای مبتنی بر ترنسفورمر مانند BERT، GPT و T5 در درک نحو زبان و معناشناسی بافتی موفقیتهای چشمگیری داشتهاند، هنوز در انجام وظایفی که نیازمند دانش عقلسلیم هستند — دانشی درباره جهان که انسانها معمولاً آن را بدیهی میپندارند — با مشکل مواجهند. این مقاله استدلال میکند که این شکاف به طور قابل توجهی توسعه سیستمهای گفتگوی واقعاً طبیعی و منسجم را مختل میکند.
اهمیت عقلسلیم برای هوش ماشینی مدتهاست که شناخته شده است، اما هنوز یک طرح جهانی برای کدگذاری و ادغام این دانش دستنیافتنی باقی مانده است. این مرور بر تقاطع استدلال عقلسلیم و هوش مصنوعی گفتگومحور تمرکز دارد و مجموعه دادهها، روششناسیها و معیارهای ارزیابی مرتبط را بررسی میکند.
استدلال عقلسلیم در جنبههای مختلف هوش مصنوعی گفتگومحور حیاتی است. این مقاله چندین حوزه کلیدی مشکل را شناسایی میکند که فقدان آن در آنها بیشتر مشهود است.
مدلها باید قصدهای بیاننشده را استنباط کنند، ابهامات را حل کنند و بافت ضمنی را درک کنند. برای مثال، درک اینکه «من دارم به فروشگاه میدوم» دلالت بر وسیله نقلیه و قصد خرید دارد، نه صرفاً حرکت فیزیکی.
تولید پاسخهای منسجم، مرتبط و از نظر اجتماعی مناسب مستلزم آگاهی از هنجارهای اجتماعی، قوانین فیزیکی و رفتارهای معمول انسانی است. مدلی که فاقد عقلسلیم باشد ممکن است پاسخهایی غیرممکن از نظر فیزیکی یا ناجور از نظر اجتماعی تولید کند.
کمک به کاربران در انجام وظایف (مانند رزرو سفر، عیبیابی) مستلزم استدلال درباره توالی اقدامات، روابط علت و معلولی و ویژگیهای اشیاء در جهان است.
این مرور، رویکردهای اصلی را در سه استراتژی کلی برای گنجاندن عقلسلیم در مدلهای هوش مصنوعی گفتگومحور دستهبندی میکند.
این رویکرد شامل آموزش بیشتر (تنظیم دقیق) مدلهای زبانی ازپیشآموزشدیده بزرگ بر روی مجموعه دادههایی است که به طور خاص برای وظایف استدلال عقلسلیم گردآوری شدهاند. مجموعه دادههایی مانند SocialIQA، CommonsenseQA و PIQA برای تطبیق مدلها جهت استدلال درباره تعاملات اجتماعی، ویژگیهای مفهومی و شهود فیزیکی استفاده میشوند.
این روش به صراحت منابع دانش خارجی ساختاریافته را ادغام میکند. مقاله دو گراف دانش برجسته را برجسته میکند:
مدلها طوری طراحی شدهاند که در حین پردازش گفتگو، اطلاعات را از این گرافهای دانش بازیابی کرده و بر روی آنها استدلال کنند. مدل COMET، یک شبکه عصبی مبتنی بر ترنسفورمر که بر روی ConceptNet و ATOMIC آموزش دیده است، به عنوان یک مثال کلیدی که قادر به تولید استنتاجهای جدید عقلسلیم است، ذکر شده است.
یک رویکرد نوظهور شامل آموزش مدلها نه تنها برای تولید پاسخ، بلکه برای تولید یک توضیح زبان طبیعی است که پاسخ را با استفاده از عقلسلیم توجیه میکند. این هدف دارد که فرآیند استدلال مدل را شفافتر و بالقوه مقاومتر کند.
ارزیابی استدلال عقلسلیم در گفتگو پیچیده است. مقاله چندین معیار سنجش را مورد بحث قرار میدهد:
معیارهای خودکار رایج شامل دقت در سوالات چندگزینهای، BLEU/ROUGE برای کیفیت پاسخ و معیارهای جدیدی است که برای اندازهگیری سازگاری واقعی یا معقول بودن استدلال طراحی شدهاند.
مقاله تحلیل مقدماتی دو مدل پیشرو گفتگوی باز را ارائه میدهد: BlenderBot 3 و LaMDA. علیرغم قابلیتهای پیشرفته آنها، هر دو مدل شکستهای قابل توجهی در استدلال عقلسلیم نشان میدهند. مثالها شامل موارد زیر است:
این مشاهدات به شدت نیاز به پژوهش متمرکز در این حوزه را برمیانگیزد، زیرا چنین شکستهایی مستقیماً اعتماد کاربر و طبیعی بودن درکشده تعاملات را تضعیف میکند.
حتی پیشرفتهترین مدلهای گفتگومحور (BlenderBot3، LaMDA) نیز شکافهای حیاتی در عقلسلیم را نشان میدهند که آن را به عنوان یک مرز بنیادی برجسته میکند، نه یک چالش حاشیهای.
ادغام گرافهای دانش اغلب شامل یک چارچوب تولید تقویتشده با بازیابی است. با توجه به بافت گفتگوی $C$ و یک گراف دانش $\mathcal{K}$، هدف مدل را میتوان به صورت تولید پاسخی $R$ که مقدار زیر را بیشینه میکند، فرمولبندی کرد:
$P(R | C, \mathcal{K}) = \sum_{k \in \mathcal{K}_C} P(k | C) \cdot P(R | C, k)$
جایی که $\mathcal{K}_C$ زیرمجموعهای از سهتاییهای دانش مرتبط است که بر اساس بافت $C$ از $\mathcal{K}$ بازیابی شدهاند. عبارت $P(k | C)$ نشاندهنده احتمال مدل بازیابی برای انتخاب سهتایی دانش $k$ است، و $P(R | C, k)$ احتمال پاسخ با توجه به بافت و دانش انتخابشده است. مدلهایی مانند COMET این را با تنظیم دقیق یک ترنسفورمر (مانند GPT-2) بر روی سهتاییهای گراف دانش که به صورت $(head, relation, tail)$ فرمت شدهاند، پیادهسازی میکنند و به آن امکان تولید تکمیلهای معقول $tail$ برای پرسوجوهای جدید $(head, relation)$ را میدهند.
سناریو: ارزیابی درک یک چتبات از یک روایت ساده.
ورودی کاربر: "برای خودم یک لیوان آب پرتقال ریختم، اما بعد تلفن زنگ خورد. وقتی برگشتم، لیوان خالی بود."
چارچوب تحلیل:
این چارچوب استدلال چندمرحلهای مورد نیاز را برجسته میکند، از بازیابی به استنتاج و سپس ادغام بافتی.
مسیر پیش رو برای هوش مصنوعی گفتگومحور آگاه از عقلسلیم شامل چندین جهت کلیدی است:
بینش اصلی: مرور ریچاردسون و هک یک حقیقت بنیادی، اما اغلب کماهمیتشده در هوش مصنوعی مدرن را آشکار میکند: پیشرفتهترین مدلهای زبانی ما تطبیقدهندگان الگوی درخشانای هستند که در خلاء معنایی عمل میکنند. آنها بر «چگونگی» زبان مسلط شدهاند اما فاقد «چرایی» هستند — مدل بنیادین جهان که معنا را پایهگذاری میکند. این یک اشکال فنی جزئی نیست؛ یک نقص معماری است که کاربردپذیری و قابلیت اعتماد هوش مصنوعی در کاربردهای دنیای واقعی را محدود میکند. همانطور که نویسندگان اشاره میکنند، حتی مدلهای پرچمداری مانند LaMDA و BlenderBot3 در وظایف استدلال انسانی پیشپاافتاده شکست میخورند، شکافی که محدودیتهای مشاهدهشده در سایر حوزههای هوش مصنوعی، مانند مدلهای بینایی کامپیوتری که علیرغم توانایی ادراکی خود فاقد درک فیزیکی هستند، را بازتاب میدهد.
جریان منطقی و نقاط قوت و ضعف: نقطه قوت مقاله در طبقهبندی روشن آن نهفته است — دستهبندی رویکردها به تنظیم دقیق، پایهگذاری بر گراف دانش و توضیحات. این چارچوب یک منظره پژوهشی آشفته را به طور مفید تقسیمبندی میکند. تأکید بر گرافهای دانشی مانند ConceptNet و ATOMIC مناسب است؛ آنها ملموسترین تلاش برای به دام انداختن برق عقلسلیم را نشان میدهند. با این حال، این مرور همچنین ناخواسته ضعف مرکزی این حوزه را برجسته میکند: اتکا به پایگاههای دانش شکننده، ایستا و ناگزیر ناقص. ConceptNet، اگرچه ارزشمند است، یک تصویر فوری از واقعیت اجماعی است که فاقد ماهیت پویا، بافتمحور و اغلب متناقض دانش دنیای واقعی است. رویکرد مدل COMET در تولید دانش یک راهحل هوشمندانه است، اما خطر توهم «حقایق» بهظاهر معقول اما نادرست را دارد و یک مشکل را با مشکل دیگری معاوضه میکند. بحث معیارهای سنجش بیشتر یک فرامشکل را آشکار میکند: ما فاقد معیارهای خودکار قوی برای ارزیابی عمق استدلال هستیم و اغلب به دقت چندگزینهای یا نمرات شباهت سطحی بازمیگردیم که جایگزینهای ضعیفی برای درک واقعی هستند.
بینشهای قابل اجرا: مسیر پیش رو صرفاً مقیاسدهی پارادایمهای موجود نیست. اول، این حوزه باید استدلال علّی و ضدواقعی را در اولویت قرار دهد و از همبستگی فراتر رود. همانطور که کار جودیا پرل استدلال میکند، درک «چه میشد اگر» و «چرا» سنگ بنای هوش مقاوم است. دوم، ما نیاز به تغییر به سمت ادغام عصبی-نمادین داریم. رویکردهای صرفاً عصبی گرسنه داده و کدر هستند؛ سیستمهای صرفاً نمادین شکننده هستند. مدلهای ترکیبی، که از شبکههای عصبی برای ادراک و تطبیق الگو در کنار موتورهای نمادین برای استنتاج منطقی استفاده میکنند، مسیری امیدوارکننده، هرچند از نظر محاسباتی چالشبرانگیز، ارائه میدهند. مؤسساتی مانند CSAIL MIT در این زمینه پیشرفتهایی داشتهاند. در نهایت، ارزیابی باید تکامل یابد. ما به معیارهای سنجشی نیاز داریم که زنجیرههای استدلال را تحت فشار قرار دهند، نیاز به توجیه داشته باشند و تناقضات را جریمه کنند، و از وظایف تکنوبتی به روایتهای گفتگوی چندمرحلهای که ناسازگاریهای منطقی را آشکار میکنند، حرکت کنند. آینده هوش مصنوعی گفتگومحور فقط درباره چت بهتر نیست؛ درباره ساختن ماشینهایی است که درک ما از جهان را به اشتراک میگذارند، هدفی که همچنان دستنیافتنی اما اکنون به لطف مرورهایی مانند این، به وضوح بیشتری تعریف شده است.