خودتوضیح‌دهی در عامل‌های هوش مصنوعی اجتماعی: رویکردی ترکیبی مبتنی بر دانش و هوش مصنوعی مولد

1. مقدمه و مرور کلی

این مقاله به چالشی حیاتی در استقرار عامل‌های هوش مصنوعی اجتماعی، به ویژه در حوزه‌های حساسی مانند آموزش آنلاین می‌پردازد. نویسندگان بر روی SAMI (تعامل میانجی‌گری شده توسط عامل اجتماعی) تمرکز دارند، دستیار هوش مصنوعی‌ای که برای تقویت ارتباطات اجتماعی میان یادگیرندگان در کلاس‌های آنلاین بزرگ‌مقیاس طراحی شده است. در حالی که چنین عامل‌هایی می‌توانند مشکل مستند کمبود حضور اجتماعی را کاهش دهند، خود مشکل جدیدی ایجاد می‌کنند: عدم شفافیت. دانش‌آموزانی که با SAMI تعامل دارند، به طور طبیعی می‌پرسند که چگونه و چرا توصیه‌های خاصی می‌کند (مثلاً ارتباط دو یادگیرنده). سوال پژوهشی اصلی این است: یک دستیار هوش مصنوعی اجتماعی چگونه می‌تواند توضیحات شفاف و قابل درکی از استدلال درونی خود ارائه دهد تا اعتماد کاربر را جلب کند؟

راه‌حل پیشنهادی، یک تکنیک نوآورانه خودتوضیح‌دهی است. این فرآیند به عنوان یک فرآیند پرسش و پاسخ زبان طبیعی قالب‌بندی شده است که در آن عامل بر روی یک مدل خود ساختاریافته از اهداف، دانش و روش‌های خود درون‌نگری می‌کند. نوآوری کلیدی، یک معماری ترکیبی است که بازنمایی‌های ساختاریافته و قابل تفسیر هوش مصنوعی مبتنی بر دانش را با قابلیت‌های انعطاف‌پذیر تولید زبان طبیعی هوش مصنوعی مولد (به طور خاص، ChatGPT) ترکیب می‌کند.

2. روش‌شناسی و معماری اصلی

خط لوله خودتوضیح‌دهی یک فرآیند چندمرحله‌ای است که برای ترجمه منطق درونی عامل به روایت‌های کاربرپسند طراحی شده است.

2.1. مدل خود: چارچوب وظیفه، روش، دانش (TMK)

پایه خودتوضیح‌دهی یک مدل خود قابل محاسبه است. نویسندگان چارچوب TMK را اقتباس کرده‌اند، که در آن عملکرد یک عامل به موارد زیر تجزیه می‌شود:

وظایف (T): اهداف سطح بالا (مثلاً "افزایش ارتباط اجتماعی").
روش‌ها (M): رویه‌ها یا الگوریتم‌ها برای دستیابی به وظایف (مثلاً "یافتن یادگیرندگان با علایق مشترک").
دانش (K): داده‌ها یا باورهای مورد استفاده روش‌ها (مثلاً "علاقه یادگیرنده الف: یادگیری ماشین").

یک اقتباس حیاتی، نمایش عناصر TMK نه به عنوان گزاره‌های منطقی صوری، بلکه به عنوان توصیف‌های کوتاه زبان طبیعی است. این امر شکاف بین ساختار نمادین عامل و فضای زبانی مدل مولد را پل می‌زند.

2.2. تولید توضیح ترکیبی: ترکیب هوش مصنوعی مبتنی بر دانش و هوش مصنوعی مولد

فرآیند تولید توضیح شامل پنج مرحله کلیدی است:

ورودی: کاربر یک سوال زبان طبیعی مطرح می‌کند (مثلاً "چرا مرا با الکس مرتبط کردی؟").
بازیابی: یک جستجوی شباهت بین سوال و توصیف‌های انگلیسی در مدل خود TMK انجام می‌شود تا مرتبط‌ترین قطعات دانش خود شناسایی شوند.
درون‌نگری: یک فرآیند زنجیره تفکر (CoT) به کار گرفته می‌شود تا بخش‌های مرتبط مدل TMK "پیموده شود" و مراحل منطقی که عامل طی کرده است بازسازی گردد.
تولید: خروجی ساختاریافته CoT و قطعات دانش بازیابی شده در قالب یک پرامپت برای یک مدل زبانی بزرگ (ChatGPT) فرمت می‌شوند.
خروجی: ChatGPT یک توضیح منسجم و زبان طبیعی تولید می‌کند که به کاربر تحویل داده می‌شود.

این رویکرد ترکیبی از دقت و قابل تأیید بودن مدل خود مبتنی بر دانش برای پایه‌گذاری توضیح استفاده می‌کند، در حالی که از هوش مصنوعی مولد برای روانی و انطباق‌پذیری روایت نهایی بهره می‌برد.

3. پیاده‌سازی فنی و جزئیات

3.1. فرمول‌بندی ریاضی جستجوی شباهت

مرحله بازیابی برای کارایی حیاتی است. با توجه به پرسش کاربر $q$ و مجموعه‌ای از $N$ بردار توصیف TMK $\{d_1, d_2, ..., d_N\}$ (مثلاً از یک مدل جاسازی جمله مانند Sentence-BERT)، سیستم k-تای بالایی مرتبط‌ترین توصیف‌ها را بازیابی می‌کند. امتیاز ارتباط معمولاً با استفاده از شباهت کسینوسی محاسبه می‌شود:

$\text{similarity}(q, d_i) = \frac{q \cdot d_i}{\|q\| \|d_i\|}$

که در آن $q$ و $d_i$ بازنمایی‌های برداری در یک فضای معنایی مشترک هستند. k-تای توصیف‌هایی با بالاترین امتیاز شباهت به مرحله بعدی منتقل می‌شوند. این اطمینان می‌دهد که توضیح بر روی استدلال عامل مرتبط با پرسش متمرکز است، نه کل مدل آن.

3.2. زنجیره تفکر برای درون‌نگری

فرآیند CoT قطعات بازیابی شده TMK را به یک ردپای استدلال ساختاریافته تبدیل می‌کند. برای یک وظیفه بازیابی شده $T_1$، روش $M_1$، و موارد دانش $K_1, K_2$، پرامپت CoT ممکن است به این صورت مهندسی شود:

"هدف عامل (وظیفه) این بود: [توصیف T_1].
برای دستیابی به این، از یک روش استفاده کرد: [توصیف M_1].
این روش نیازمند دانستن این بود: [توصیف K_1] و [توصیف K_2].
بنابراین، تصمیم عامل بر اساس... بود."

این ردپای ساختاریافته سپس به ChatGPT با دستوری مانند این داده می‌شود: "بر اساس مراحل استدلال ساختاریافته زیر، یک توضیح واضح و مختصر برای یک دانش‌آموز تولید کن."

4. ارزیابی آزمایشی و نتایج

4.1. معیارهای ارزیابی: کامل بودن و صحت

نویسندگان خودتوضیح‌ها را در دو بعد اصلی ارزیابی کردند:

کامل بودن: آیا توضیح تمام مراحل مرتبط در فرآیند تصمیم‌گیری عامل را همانطور که توسط مدل TMK تعریف شده است پوشش می‌دهد؟ این با نگاشت محتوای توضیح به عناصر TMK ارزیابی شد.
صحت: آیا توضیح به طور دقیق فرآیند واقعی عامل را منعکس می‌کند، بدون معرفی توهمات یا تناقضات؟ این نیازمند تأیید تخصصی در برابر کد/لاگ‌های عامل بود.

بینش کلیدی ارزیابی

رویکرد ترکیبی امتیازات بالایی در صحت نشان داد زیرا مدل مولد به شدت توسط داده‌های بازیابی شده TMK محدود شده بود. کامل بودن متغیرتر بود و به کیفیت جستجوی شباهت و مهندسی پرامپت برای CoT بستگی داشت.

4.2. نتایج استقرار در کلاس زنده

سیستم در یک کلاس آنلاین زنده مستقر شد. در حالی که نتایج کمی خاص در بخش ارائه شده جزئیات داده نشده است، مقاله در مورد این استقرار گزارش می‌دهد، که نشان‌دهنده تمرکز بر اعتبارسنجی کیفی یا مقدماتی در دنیای واقعی است. خود استقرار یک نتیجه قابل توجه است که امکان‌پذیری عملی رویکرد را در یک محیط آموزشی پویا نشان می‌دهد. کار آینده از آزمایش A/B که معیارهای اعتماد (مثلاً نظرسنجی کاربران در مورد شفافیت درک شده، قابلیت اطمینان) را بین گروه‌هایی که توضیح دریافت می‌کنند و آنهایی که دریافت نمی‌کنند اندازه‌گیری می‌کند، بهره خواهد برد.

توضیح نمودار فرضی: یک نمودار میله‌ای که امتیازات "کیفیت توضیح" (کامل بودن و صحت در مقیاس ۱-۵) را برای روش ترکیبی TMK+ChatGPT در مقابل خط پایه استفاده از ChatGPT به تنهایی با فقط پرسش کاربر مقایسه می‌کند. روش ترکیبی میله‌های به طور قابل توجهی بالاتری برای صحت نشان می‌دهد که اثر پایه‌گذاری مدل خود را نشان می‌دهد.

5. چارچوب تحلیل و مثال موردی

سناریو: SAMI دانش‌آموز باب (علاقه‌مند به "موسیقی جاز" و "برنامه‌نویسی پایتون") را با دانش‌آموز آلیس (علاقه‌مند به "موسیقی بلوز" و "علم داده") مرتبط می‌کند.

پرسش کاربر: "چرا من با آلیس مرتبط شدم؟"

قطعات مدل خود TMK داخلی (بازیابی شده):

T1: "تقویت ارتباطات اجتماعی بر اساس شباهت پروفایل."
M1: "محاسبه همپوشانی علایق با استفاده از شباهت جاکارد روی برچسب‌های علاقه."
K1 (باب): "علایق: موسیقی جاز، برنامه‌نویسی پایتون."
K2 (آلیس): "علایق: موسیقی بلوز، علم داده."
K3 (محاسبه): "برچسب‌های مشترک: 'موسیقی' (از جاز/بلوز) و 'برنامه‌نویسی' (از پایتون/علم داده). امتیاز شباهت: ۰.۴."

پرامپت زنجیره تفکر برای ChatGPT:
"وظیفه عامل تقویت ارتباطات بر اساس شباهت پروفایل بود. روش آن محاسبه همپوشانی علایق بود. برای شما (باب)، می‌دانست که علایق شما: موسیقی جاز، برنامه‌نویسی پایتون است. برای آلیس، می‌دانست که علایق او: موسیقی بلوز، علم داده است. یک امتیاز شباهت بر اساس دسته‌های همپوشان (موسیقی، برنامه‌نویسی) محاسبه کرد. امتیاز ۰.۴ بود، که آستانه آن برای پیشنهاد ارتباط را برآورده می‌کرد. بنابراین..."

توضیح نهایی تولید شده:
"من شما را با آلیس مرتبط کردم زیرا سیستم ما علایق مشترکی را شناسایی کرد که می‌تواند مبنای خوبی برای یک گفتگو باشد. هر دوی شما علاقه به موسیقی (جاز/بلوز) و موضوعات فنی مرتبط با برنامه‌نویسی (پایتون/علم داده) دارید. بر اساس این همپوشانی، فکر کردم ممکن است زمینه مشترکی برای شروع یک بحث داشته باشید."

6. تحلیل انتقادی و دیدگاه‌های تخصصی

بینش اصلی: این مقاله فقط در مورد قابل توضیح کردن هوش مصنوعی نیست؛ بلکه یک نقشه راه استراتژیک برای مهندسی اعتماد در عامل‌های تعبیه شده اجتماعی است. نویسندگان به درستی شناسایی کرده‌اند که در حوزه‌هایی مانند آموزش، تأثیر عامل نه از عملکرد خام وظیفه، بلکه از نقش آن به عنوان یک کنشگر اجتماعی معتبر ناشی می‌شود. رویکرد ترکیبی آن‌ها—استفاده از یک مدل خود نمادین به عنوان "منبع حقیقت" برای مهار تمایل هوش مصنوعی مولد به جعل—یک راه‌حل عملی و ضروری در عصر فعلی مدل‌های زبانی بزرگ است. این مستقیماً به آنچه محققانی مانند سینتیا رودین استدلال می‌کنند می‌پردازد: ما به مدل‌های ذاتاً قابل تفسیر نیاز داریم، نه توضیحات پسینی. در اینجا، مدل TMK آن ساختار ذاتی را فراهم می‌کند.

جریان منطقی و مشارکت: منطق قانع‌کننده است: ۱) عامل‌های اجتماعی به اعتماد نیاز دارند، ۲) اعتماد نیازمند شفافیت است، ۳) شفافیت نیازمند خودتوضیح‌دهی است، ۴) خودتوضیح‌دهی قابل اعتماد نیازمند یک مدل خود پایه‌گذاری شده است، ۵) توضیحات قابل استفاده نیازمند زبان طبیعی هستند، ۶) بنابراین، یک مدل پایه‌گذاری شده (TMK) را با یک مولد زبان (LLM) ترکیب کنید. مشارکت کلیدی، معماری خاصی است که این جریان را عملیاتی می‌کند، به ویژه استفاده از جستجوی شباهت روی توصیف‌های طبیعی‌سازی شده TMK به عنوان مکانیزم بازیابی. این از ماشه‌های قاعده سخت‌کد شده ظریف‌تر است.

نقاط قوت و ضعف: نقطه قوت اصلی طراحی ترکیبی عملی آن است که از عدم شفافیت یادگیری عمیق محض و شکنندگی سیستم‌های نمادین محض اجتناب می‌کند. این یک کاربرد هوشمندانه از اصول تولید تقویت شده با بازیابی (RAG) است، اما اعمال شده بر خود-دانش به جای اسناد خارجی—مفهومی با پتانسیل بالا. با این حال، ضعف‌ها قابل توجه هستند. اول، مدل خود ایستا و دست‌ساز است. از تعاملات یاد نمی‌گیرد یا به‌روز نمی‌شود، که بار نگهداری و خطر انحراف از کد واقعی عامل را ایجاد می‌کند. دوم، ارزیابی نازک است. اعداد سخت در مورد اعتماد کاربر، درک یا تغییر رفتار کجاست؟ بدون این‌ها، این یک اثبات مفهوم مهندسی است، نه یک ابزار اعتمادساز معتبر. سوم، فرض می‌کند که مدل TMK یک بازنمایی کامل از استدلال "واقعی" عامل است، که ممکن است برای عامل‌های پیچیده و سازگار صادق نباشد.

بینش‌های قابل اجرا: برای متخصصان، نتیجه روشن است: از روز اول شروع به معماری سیستم‌های هوش مصنوعی خود با یک مدل خود قابل پرسش کنید. این مقاله یک الگوی عملی ارائه می‌دهد. گام بعدی، خودکارسازی ایجاد و به‌روزرسانی این مدل خود است، شاید با استفاده از تکنیک‌هایی از هوش مصنوعی عصب-نمادین یا تفسیرپذیری مکانیکی. برای محققان، چالش این است که فراتر از مدل‌های خود ایستا به بازنمایی‌های خود پویا و قابل یادگیری حرکت کنند. آیا یک عامل می‌تواند ساختار TMK خود را از تجربیات و کد خود یاد بگیرد؟ علاوه بر این، این حوزه باید معیارهای استانداردی برای ارزیابی تأثیر اجتماعی-شناختی توضیحات توسعه دهد، نه فقط کامل بودن فنی آن‌ها. آیا یک توضیح مانند آنچه تولید شد واقعاً تمایل یک یادگیرنده را برای تعامل با همتایی که توسط هوش مصنوعی پیشنهاد شده است افزایش می‌دهد؟ این معیار نهایی است که اهمیت دارد.

7. کاربردهای آینده و جهت‌های پژوهشی

یادگیری خودکار مدل خود: ادغام تکنیک‌هایی از سنتز برنامه یا تحلیل کد مبتنی بر LLM برای تولید و به‌روزرسانی خودکار مدل خود TMK از کد منبع و لاگ‌های زمان اجرای عامل، کاهش مهندسی دستی.
سیستم‌های چندعاملی قابل توضیح: گسترش چارچوب برای توضیح رفتار جمعیت‌ها یا ازدحام‌های عامل، که توضیحات ممکن است شامل پروتکل‌های هماهنگی و رفتار نوظهور باشد.
سبک‌های توضیح شخصی‌سازی شده: تطبیق مؤلفه مولد برای تنظیم پیچیدگی، لحن و تمرکز توضیح بر اساس پروفایل‌های فردی کاربران (مثلاً مبتدی در مقابل متخصص، شکاک در مقابل معتمد).
توضیحات پیش‌گیرانه و تقابلی: حرکت فراتر از پرسش و پاسخ واکنشی به ارائه توضیحات توسط عامل برای اقدامات غیرمنتظره یا ارائه توضیحات تقابلی ("من شما را با آلیس به جای چارلی مرتبط کردم زیرا...").
کاربرد در حوزه‌های پرریسک: استقرار معماری‌های خودتوضیح‌دهی مشابه در هوش مصنوعی سلامت (توضیح توصیه‌های درمانی)، فین‌تک (توضیح رد وام) یا سیستم‌های خودمختار (توضیح تصمیمات ناوبری)، جایی که شفافیت به صورت قانونی یا اخلاقی الزامی است.
پژوهش کالیبراسیون اعتماد: مطالعات طولی برای اندازه‌گیری اینکه مواجهه با چنین توضیحاتی در طول زمان چگونه بر اعتماد کاربر، اتکا و کارایی کلی سیستم در دستیابی به اهداف اجتماعی آن تأثیر می‌گذارد.

8. مراجع

Goel, A. K., & Joyner, D. A. (2017). Using AI to teach AI: Lessons from an online AI class. AI Magazine.
Rudin, C. (2019). Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nature Machine Intelligence.
Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Advances in Neural Information Processing Systems.
Muller, M., et al. (2019). Principles for Explainable AI. Communications of the ACM.
Confalonieri, R., et al. (2021). A historical perspective of explainable AI. WIREs Data Mining and Knowledge Discovery.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems. (به عنوان نمونه‌ای از یک تکنیک بنیادی هوش مصنوعی که اغلب غیرشفاف است و نیازمند روش‌های توضیح پسینی است).
Georgia Institute of Technology, Interactive Computing - Design & Intelligence Lab. (https://dilab.gatech.edu/) – برای زمینه محیط پژوهشی تولیدکننده این کار.
OpenAI. (2023). ChatGPT. (https://openai.com/chatgpt) – مؤلفه هوش مصنوعی مولد اشاره شده در مقاله.