2.1 تماسك الحوار والبروز الموضوعي
الحفاظ على محادثة منطقية متماسكة وذات صلة موضوعية عبر عدة جولات. بدون المنطق السليم، تولد النماذج ردودًا صحيحة نحويًا ولكنها غير منطقية أو غير ذات صلة من الناحية الدلالية.
يتناول هذا البحث الاستعراضي التحدي الحاسم المتمثل في دمج الاستدلال بالمنطق السليم في أنظمة الذكاء الاصطناعي المحادثي الحديثة. بينما حققت النماذج اللغوية الكبيرة المدربة مسبقًا (مثل BERT وGPT وT5) نجاحًا ملحوظًا في فهم التركيب النحوي والسياق، فإنها تفتقر بشكل أساسي إلى المعرفة الضمنية والعالمية التي يعتبرها البشر أمرًا مفروغًا منه. يجادل البحث بأن هذه الفجوة هي عنق الزجاجة الرئيسي الذي يمنع الذكاء الاصطناعي من الانخراط في حوار طبيعي ومتماسك وذكي حقًا. ويضع المؤلفان، كريستوفر ريتشاردسون ولاري هيك من معهد جورجيا للتكنولوجيا، عملهما كخريطة ضرورية للمشهد الحالي - الأساليب ومجموعات البيانات والتقييم - لتوجيه البحث المستقبلي في هذا المجال الناشط والحيوي.
يحدد البحث مهام المحادثات المحددة التي يكون فيها فشل المنطق السليم أكثر وضوحًا.
الحفاظ على محادثة منطقية متماسكة وذات صلة موضوعية عبر عدة جولات. بدون المنطق السليم، تولد النماذج ردودًا صحيحة نحويًا ولكنها غير منطقية أو غير ذات صلة من الناحية الدلالية.
الإجابة على الأسئلة أو إكمال التعليمات التي تتطلب افتراضات غير مصرح بها. على سبيل المثال، فهم أن "غلي الغلاية" يعني أن الخطوة التالية هي "صب الماء"، حتى لو لم يتم ذكر ذلك صراحة.
فهم الفكاهة والسخرية والتعاطف والأعراف الاجتماعية. وهذا يتطلب نموذجًا عميقًا لعلم النفس البشري والأعراف الاجتماعية تستنتجه النماذج الحالية إلى حد كبير إحصائيًا بدلاً من فهمه.
يقوم الاستعراض بتصنيف المناهج التقنية الأساسية التي تم استكشافها في الأدبيات.
مزيد من تدريب النماذج اللغوية الكبيرة على مجموعات بيانات غنية بمعرفة المنطق السليم (مثل ATOMIC وSocialIQA). يهدف هذا النهج إلى دمج المنطق السليم ضمن معلمات النموذج بشكل ضمني.
ربط النموذج صراحة بقواعد المعرفة المنظمة مثل ConceptNet أو ATOMIC. يسترجع النموذج أو يستدل على هذه الرسوم البيانية أثناء الاستدلال. مثال رئيسي هو COMET (Bosselut et al., 2019)، وهو نموذج محول تم تدريبه لتوليد مجموعات معرفية جديدة من هذه الرسوم البيانية.
تدريب النماذج لتوليد ليس فقط إجابة ولكن أيضًا أثر استدلالي أو تفسير باللغة الطبيعية. وهذا يجبر النموذج على توضيح الخطوات الضمنية، مما يحسن احتمالية المتانة.
بالإضافة إلى الدقة القياسية، يستخدم المجال مقاييس مثل:
يقدم المؤلفان تحليلاً نقدياً وعملياً لأبرز نماذج الحوار المفتوح، BlenderBot 3 وLaMDA. ملاحظاتهما قاسية: على الرغم من حجم هذه النماذج وتعقيدها، فإنها تفشل كثيرًا في مهام المنطق السليم التافهة. تتضمن الأمثلة توليد عبارات متناقضة داخل محادثة أو الفشل في فهم القيود المادية الأساسية. هذه الأدلة التجريبية تؤكد بقوة أطروحة البحث المركزية: الأداء في المقاييس المرجعية لا يعادل منطقًا سليمًا قويًا وقابلاً للاستخدام في التفاعل المفتوح.
الرؤية الأساسية: يعاني مجال الذكاء الاصطناعي المحادثي من "دين منطق سليم" حاد. لقد بنينا ناطحات سحاب (نماذج لغوية كبيرة ضخمة) على أسس ضمنية مهتزة. يحدد الاستعراض بشكل صحيح أن المشكلة الأساسية ليست نقصًا في التقنيات، ولكن عدم توافق أساسي بين الطبيعة الإحصائية لمطابقة الأنماط في معالجة اللغة الطبيعية الحديثة والطبيعة الرمزية والسببية والقياسية للمنطق السليم البشري. كما لوحظ في العمل المؤثر "حول قياس الذكاء" لشوليه (2019)، فإن الذكاء الحقيقي يتطلب اكتساب المهارات والتعميم في المواقف الجديدة - وهو إنجاز مستحيل بدون نموذج غني للعالم.
التدفق المنطقي: هيكل البحث منطقي ومقنع. ينتقل من تعريف المشكلة ومظاهرها (الأقسام 1-2)، إلى تصنيف الحلول الهندسية التي تمت محاولتها (القسم 3)، إلى فحص كيفية قياس التقدم (القسم 4)، وأخيرًا تقديم أدلة ملموسة على أن الحلول الحالية غير كافية (القسم 5). يعكس هذا التدفق المنهج العلمي: الفرضية (المنطق السليم مفقود)، التجربة (أساليب دمج متنوعة)، القياس (المقاييس المرجعية)، والاستنتاج (لم يتم حلها).
نقاط القوة والضعف: أكبر نقاط قوة البحث هي تقييمه النقدي الملموس لأحدث النماذج. إنه يتجاوز التجريدات الأكاديمية لإظهار أنماط الفشل الحقيقية. عيبه الأساسي، الشائع في الاستعراضات، هو طبيعته الوصفية بدلاً من الوصفية. فهو يرسم خريطة الإقليم لكنه يقدم إرشادات محدودة حول المسارات الأكثر وعدًا. إنه يقلل من أهمية القيود المعمارية للنماذج القائمة على المحولات البحتة للاستدلال السببي، وهي نقطة تؤكد عليها بشدة الأبحاث من مؤسسات مثل CSAIL التابعة لمعهد ماساتشوستس للتكنولوجيا حول التكامل العصبي الرمزي.
رؤى قابلة للتنفيذ: بالنسبة للممارسين والباحثين، فإن الاستنتاج واضح: توقف عن التعامل مع المنطق السليم على أنه مجرد مجموعة بيانات أخرى للضبط الدقيق. يحتاج المجال إلى تحول في النموذج. 1) الاستثمار في البنى العصبية الرمزية: النماذج الهجينة التي تجمع بين الشبكات العصبية وتمثيلات المعرفة الصريحة والقابلة للتلاعب (مثل العمل على البرمجة المنطقية الاستقرائية القابلة للتفاضل) هي اتجاه ضروري. 2) تطوير بيئات محاكاة أفضل: مثل OpenAI's Gym للتعلم المعزز، نحتاج إلى محاكيات تفاعلية غنية (مستوحاة من منصات مثل THOR التابعة لـ AllenAI) حيث يمكن للوكلاء تعلم المنطق السليم من خلال التجربة الجسدية والعواقب، وليس فقط النص. 3) إعادة التفكير في التقييم: الانتقال من المقاييس المرجعية الثابتة للأسئلة والأجوبة إلى التقييم الديناميكي التفاعلي حيث يجب على النماذج إظهار فهم متسق للعالم بمرور الوقت، على غرار المبادئ وراء تحدي ARC (مجموعة التجريد والاستدلال).
يتضمن نهج التأسيس على الرسوم البيانية المعرفية غالبًا إطار توليد معزز بالاسترجاع. بشكل رسمي، في سياق حوار معطى $C$، يسترجع النموذج مجموعة من مجموعات المعرفة ذات الصلة بالمنطق السليم $K = \{(h_i, r_i, t_i)\}$ من رسم بياني معرفي $\mathcal{G}$، حيث $h$ كيان رأس، و $r$ علاقة، و $t$ كيان ذيل. يتم توليد الرد النهائي $R$ بالشرط على كل من $C$ و $K$:
$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$
تنفذ نماذج مثل COMET ذلك عن طريق ضبط محول (مثل GPT-2) بدقة للتنبؤ بالكيان الذيل $t$ عند إعطاء $(h, r)$، مما يؤدي بشكل فعال إلى تعلم اجتياز الرسم البياني في فضاء كامن: $t = \text{COMET}(h, r)$.
بينما لا يحتوي معاينة PDF على مخططات بيانية صريحة، فإن الملاحظات الأولية الموصوفة تشير إلى فجوة أداء كبيرة. يمكننا تصور مخطط شريطي افتراضي يقارن الأداء البشري مقابل BlenderBot3 وLaMDA في مجموعة من مهام حوار المنطق السليم (مثل التماسك، والاستدلال المادي، والاستدلال الاجتماعي). سيمثل المحور Y درجة (0-100). سيظهر المخطط:
السيناريو: تقييم فهم وكيل المحادثة لسرد بسيط.
سياق الحوار: المستخدم: "لقد حصلت للتو على جرو جديد! إنه نشيط للغاية. تركته في غرفة المعيشة مع حذائي المفضل بينما أجبت على الباب."
رد الوكيل أ (يفتقر إلى المنطق السليم): "هذا لطيف. ما لون حذائك؟"
رد الوكيل ب (مع المنطق السليم): "أوه لا، قد ترغب في التحقق من تلك الأحذية! الجراء تحب المضغ."
تحليل الإطار:
سيؤدي حل الاستدلال بالمنطق السليم إلى فتح تطبيقات تحويلية: