ساخت مجموعه داده گفتگو برای دستیارهای مجازی مبتنی بر API: پژوهشی بر اساس روش "جادوگر شهر از"

1. مقدمه و مرور کلی

این مقاله به یک تنگنای کلیدی در توسعه دستیارهای مجازی تخصصی برای مهندسی نرم‌افزار می‌پردازد: کمبود مجموعه‌داده‌های گفتگوی باکیفیت و وظیفه‌محور. در حالی که دستیارهای عمومی (مانند Siri و Alexa) با تکیه بر داده‌های عظیم و متنوع شکوفا شده‌اند، حوزه‌های تخصصی‌تری مانند برنامه‌نویسی API با کمبود داده مواجه هستند. نویسندگان یک"جادوگر شهر اُز" (Wizard of Oz، به اختصار WoZ)آزمایش انجام دادند که در آن یک دستیار مجازی کمک‌رسان API که توسط یک متخصص انسانی پنهان کنترل می‌شد، شبیه‌سازی شد تا پیکره‌ای از تعاملات برنامه‌نویسان با دستیار جمع‌آوری و حاشیه‌نویسی شود. مشارکت اصلی آن‌ها نه تنها یک مجموعه‌داده، بلکه یکچارچوب حاشیه‌نویسی ساختاریافته。

2. روش‌ها و طراحی آزمایش

این مطالعه از پارادایم کنترل‌شده WoZ برای برانگیختن گفتگوهای طبیعی استفاده کرد، در حالی که از محدودیت‌های هوش مصنوعی نمونه‌اولیه شکننده اجتناب نمود.

2.1. پروتکل آزمایش "جادوگر شهر از"

این مطالعه 30 برنامه‌نویس حرفه‌ای را استخدام کرد و از آن‌ها خواست تا با استفاده از دو API نامشخص، تکالیف برنامه‌نویسی را انجام دهند. آن‌ها با سیستمی تعامل داشتند که فکر می‌کردند یک دستیار مجازی هوش مصنوعی است. چیزی که نمی‌دانستند این بود که این "دستیار" در واقع یک متخصص انسانی بود (یعنی "جادوگر") که از طریق یک رابط چت به صورت زنده پاسخ می‌داد. این روش،مشکل شروع سردهوش مصنوعی را دور می‌زند و در نتیجه امکان جمع‌آوری گفتگوهای غنی و هدف‌مندی را فراهم می‌کند که نیازهای واقعی کاربران و الگوهای گفتگوی واقعی را منعکس می‌کنند.

2.2. شرکت‌کنندگان و انتخاب وظایف

تمامی شرکت‌کنندگان، توسعه‌دهندگان نرم‌افزار شاغل بودند. وظایف به گونه‌ای طراحی شده بودند که ساده نباشند و نیازمند کاوش اساسی در API و حل مسئله باشند. این امر اطمینان می‌داد که گفتگوها شامل انواع مختلفی از مسائل و نیازهای اطلاعاتی هستند، نه صرفاً پرس‌وجوهای ساده نحوی.

3. چارچوب حاشیه‌نویسی داده‌ها

پیکره گفتگوی خام، در امتداد چهار بُعد کلیدی حاشیه‌نویسی شد و در نتیجه برای هر بیان، یک نمای چندوجهی ایجاد گردید.

3.1. ابعاد کنش گفتاری

منظور ضمنی: هدف کاربردشناختی (مانند درخواست، اطلاع‌رسانی، تأیید).
نوع اطلاعات API: دسته دانش API مورد جستجو (مانند مفهوم، تابع، پارامتر، مثال).
عملکرد ارجاع به عقب: نحوه ارتباط بیان با گفتگوی قبلی (مانند پاسخ، توضیح مفصل، تصحیح).
قابلیت ردیابی مؤلفه‌های API نگاشت گفتگو به عناصر مشخص و عملی در مستندات API.

3.2. الگوی حاشیه‌نویسی

این الگوی چندبعدی فراتر از طبقه‌بندی ساده نیات عمل می‌کند. این الگو پیچیدگی‌هایساختاری و ارجاعی گفتگوهای فنی را ثبت می‌کندو نقشه‌ای برای آموزش مدل‌ها فراهم می‌آورد تا نه تنها آنچه پرسیده می‌شود، بلکه زمینه پرسش و چارچوب هستی‌شناختی آن را نیز درک کنند.

4. نتایج کلیدی و بینش‌های آماری

مقیاس شرکت‌کنندگان

برنامه‌نویسان حرفه‌ای

API مورد استفاده

API‌های مختلف مورد استفاده برای وظیفه

ابعاد برچسب‌گذاری

سلسله‌مراتب کنش گفتگو

پیکره‌ای که پژوهش تولید کرده است، نشان‌دهندهطیف متنوعی از تعاملات. تحلیل اولیه نشان می‌دهد که پرسش‌های برنامه‌نویسان معمولاً شامل انواع پیچیده‌ای از اطلاعات است و نیازمند پاسخ‌های چندمرحله‌ای و مبتنی بر زمینه است. بُعد ردیابی (Traceability) حیاتی ثابت شده است و بر نیاز آینده دستیارهای هوش مصنوعی به یکپارچگی عمیق و استدلال بر روی مستندات ساختاریافته API، مشابه نحوه‌ای که سیستم‌های تولید تقویت‌شده با بازیابی (RAG) پاسخ‌های خود را بر پایه پایگاه‌های دانش خارجی قرار می‌دهند، تأکید می‌کند.

5. تحلیل فنی و چارچوب ریاضی

فرآیند حاشیه‌نویسی را می‌توان صوری‌سازی کرد. فرض کنید یک گفتگو $D$ به عنوان دنباله‌ای از گفته‌ها $\{u_1, u_2, ..., u_n\}$ باشد. هر گفته $u_i$ به عنوان یک بردار حاشیه‌نویسی می‌شود:

$I_i$ ∈ $\mathcal{I}$: قصد گفتاری (مجموعه برچسب‌های محدود).
$T_i$ ∈ $\mathcal{P}(\mathcal{T})$: مجموعه انواع اطلاعات API (مجموعه توانی از برچسب‌های نوع).
$B_i$ ∈ $\mathcal{B}$: برچسب عملکرد پیوند پسین.
$R_i$ ⊆ $\mathcal{C}$: مجموعه‌ای از مؤلفه‌های API قابل ردیابی از مجموعه شناخته‌شده $\mathcal{C}$.

پیکره گفتگو $\mathcal{D}$ مجموعه‌ای از تمام گفتگوهای حاشیه‌نویسی‌شده است. این نمایش ساختاریافته برای آموزش مدل‌های یادگیری ماشین (به ویژه مدل‌های دنباله به دنباله یا شبکه‌های عصبی گراف) حیاتی است تا بتوانند با توجه به زمینه $\{\mathbf{a}_1, ..., \mathbf{a}_i\}$ و همچنین گراف دانش API زیربنایی تعریف‌شده توسط $\mathcal{C}$، پاسخ مناسب دستیار $u_{i+1}$ را پیش‌بینی کنند.

6. چارچوب تحلیلی: مطالعه موردی نمونه

صحنه: یک برنامه‌نویس در حال تلاش برای احراز هویت کاربر با استفاده از `OAuth2Library` است، اما با خطایی درباره `scope` نامعتبر مواجه شده است.

قطعه گفتگو و حاشیه‌نویسی:

برنامه‌نویس: "فراخوانی `authenticate_user` با خطای 'دامنه نامعتبر' مواجه شد. کدام دامنه‌ها معتبر هستند؟"
- قصد: درخواست.
- نوع اطلاعات: پارامتر/محدودیت، معنای خطا.
- قابلیت عقب‌گرد: مشکل جدید (راه‌اندازی شده توسط خطا).
- قابلیت ردیابی: `OAuth2Library.authenticate_user`، پارامتر `scope`.
جادوگر/دستیار: "مقادیر معتبر برای `scope` عبارتند از 'read'، 'write' و 'admin'. این خطا به این معنی است که رشته‌ای که ارسال کرده‌اید جزو این مقادیر نیست. آیا شیء `OAuth2Config` را بررسی کرده‌اید؟"
- قصد: اطلاع‌رسانی، پیشنهاد.
- نوع اطلاعات: مقادیر شمارشی، راهنمایی مفهومی.
- قابلیت عقب‌گرد: پاسخ، توضیح مفصل.
- قابلیت ردیابی: مستندات پارامتر `scope`، کلاس `OAuth2Config`.

این مثال، استدلال چند‌پرشی مورد نیاز را نشان می‌دهد: از پیام خطا، به مقادیر معتبر پارامتر، و سپس به شیء پیکربندی مرتبط. یک مدل پرسش و پاسخ ساده شکست خواهد خورد؛ اما مدلی که بر روی این مجموعه داده حاشیه‌نویسی شده آموزش دیده باشد، می‌تواند این ارتباط را یاد بگیرد.

7. کاربردها و جهت‌های تحقیقاتی آینده

افزونه‌های اختصاصی IDE: این مجموعه داده می‌تواند مستقیماً برای هدایت سیستم‌های تکمیل کد هوش مصنوعی و پرسش و پاسخ درون IDE که زمینه خاص پروژه را درک می‌کنند، مورد استفاده قرار گیرد، مشابه نحوه تکامل GitHub Copilot از Codex، اما با پایه API عمیق‌تر.
غنی‌سازی خودکار مستندات: حالت گفتگو می‌تواند شکاف‌ها یا نقاط مبهم در مستندات API را شناسایی کند. به عنوان مثال، سوالات مکرر در مورد پارامتر `X` نشان‌دهنده کیفیت پایین مستندات `X` است.
تعمیم فراسوی API: آیا استراتژی گفتگویی که برای یک API (مثلاً Java Streams) یاد گرفته شده است، می‌تواند به API دیگری (مثلاً Python Pandas) انتقال یابد؟ این امر مستلزم یادگیری استراتژی‌های گفتگوی انتزاعی و مستقل از دامنه است.
یکپارچه‌سازی با مدل‌های زبانی بزرگ و RAG: این پیکره زبانی حاشیه‌نویسی‌شده، معیار آموزشی و ارزیابی ایده‌آلی برای سیستم‌های تولید تقویت‌شده با بازیابی در حوزه نرم‌افزار است که توانایی آن‌ها در بازیابی عناصر API صحیح و تولید پاسخ‌های مستند و مفید را می‌سنجد.
کمک‌رسانی پیش‌گیرانه: فراتر از پرسش و پاسخ منفعل، دستیاران آینده می‌توانند زمینه کد را تحلیل کرده و به‌طور پیش‌گیرانه پیشنهادهای API مرتبط را ارائه دهند؛ جهتی که ابزارهایی مانند Amazon CodeWhisperer به آن اشاره می‌کنند.

8. مراجع

McTear, M., Callejas, Z., & Griol, D. (2016). The Conversational Interface: Talking to Smart Devices. Springer.
Serban, I. V., et al. (2015). بررسی پیکره‌های موجود برای ساخت سیستم‌های گفتگوی مبتنی بر داده. پیش‌چاپ arXiv:1512.05742.
Rieser, V., & Lemon, O. (2011). یادگیری تقویتی برای سیستم‌های گفتگوی سازگار: یک روش‌شناسی مبتنی بر داده برای مدیریت گفتگو و تولید زبان طبیعی. Springer.
Chen, M., et al. (2021). ارزیابی مدل‌های زبانی بزرگ آموزش‌دیده بر روی کد. پیش‌چاپ arXiv:2107.03374. (Codex/Copilot)
Lewis, P., et al. (2020). تولید تقویت‌شده با بازیابی برای وظایف NLP دانش‌بر. NeurIPS.
OpenAI. (2023). گزارش فنی GPT-4. پیش‌چاپ arXiv:2303.08774.
Allamanis, M., et al. (2018). مروری بر یادگیری ماشین برای کد بزرگ و طبیعی‌بودن. ACM Computing Surveys.

9. تحلیل تخصصی اصلی

بینش کلیدی: این مقاله حمله‌ای دقیق به مسئله زیرساخت «مهندسی نرم‌افزار توانمندشده با هوش مصنوعی» است: داده. نویسندگان به درستی اشاره می‌کنند که پیشرفت‌های خیره‌کننده مدل‌های زبانی بزرگ مانند GPT-4 یا Codex در حوزه‌های تخصصی، به دلیل کمبود داده‌های گفتگوی باکیفیت، ساختاریافته و وظیفه‌محور، محدود شده‌اند. کار آنها کمتر درباره ترفندهای «جادوگرانه» و بیشتر دربارهچارچوب حاشیه‌نویسی— این تلاشی علمی و سنجیده است که با هدف ساختن یک «سنگ روزتا» انجام می‌شود تا پرسش‌های آشفته برنامه‌نویسان را به زبانی ساختاریافته ترجمه کند که ماشین بتواند آن را بیاموزد. این کار پایه‌ای ضروری و کمتر دیده‌شده اما حیاتی است که پیش از هر کاربرد قوی هوش مصنوعی لازم است و با فلسفه هوش مصنوعی متمرکز بر داده که توسط اندرو انگ تبلیغ می‌شود، هم‌نواست.

جریان منطقی و دستاوردها: منطق بی‌عیب: 1) مسئله: کمبود داده‌های گفتگوی مهندسی نرم‌افزار با کیفیت بالا. 2) روش: استفاده از WoZ برای شبیه‌سازی هوش مصنوعی ایده‌آل و جمع‌آوری داده‌های طبیعی. 3) تحلیل: اعمال الگوهای چندبعدی سخت‌گیرانه برای قابل خواندن شدن داده توسط ماشین. 4) دستاورد: ارائه مجموعه داده و الگوی پایه برای آموزش مدل‌های آینده. دستاورد کلیدی 30 گفتگو نیست؛ بلکه اثبات این است که چنین گفتگوهایی را می‌توان به طور نظام‌مند ضبط و کدگذاری کرد. این کار، نقشه راه روش‌شناختی برای ایجاد مجموعه داده‌های مشابه برای سایر وظایف مهندسی نرم‌افزار (اشکال‌زدایی، طراحی، مهاجرت) فراهم می‌کند، همان‌طور که ImageNet الگویی برای مجموعه داده‌های بصری ارائه داد.

نقاط قوت و ضعف: نقطه قوت در دقت روش‌شناختی و دید آینده‌نگرانه آن است. الگوی حاشیه‌نویسی چهاربعدی جامع بوده و هم به سطح کاربردشناختی (قصد) و هم معناشناختی (ردیابی‌پذیری API) می‌پردازد. با این حال، مقیاس یک محدودیت آشکار است. 30 برنامه‌نویس و 2 API تنها یک مطالعه پایلوت است. آزمون واقعی در مقیاس‌پذیری و تنوع نهفته است: آیا این الگو برای 300 برنامه‌نویس از 20 API مختلف (مثلاً APIهای سطح پایین سیستم در مقابل چارچوب‌های وب سطح بالا) کاربرد دارد؟ علاوه بر این، اگرچه روش WoZ پرسش‌های طبیعی را برمی‌انگیزد، اما پاسخ‌های «جادوگر» اگرچه حرفه‌ای است، اما منبع بالقوه سوگیری تک‌جانبه است — پاسخ «ایده‌آل» ممکن است تنها یا بهترین گزینه نباشد. این پژوهش همچنین از چالش عظیم مهندسی یکپارچه‌سازی این دانش ساختاریافته در یک دستیار مقیاس‌پذیر و بلادرنگ طفره رفته است، چالشی که در استقرار سیستم‌هایی مانند Microsoft IntelliCode آشکار شده است.

بینش‌های عملی: برای پژوهشگران: بلافاصله این روش را تکرار و گسترش دهید. این حوزه به یک «شبکه گفتگوی مهندسی نرم‌افزار» نیاز دارد. برای سازندگان ابزارها: از این الگوی حاشیه‌نویسی برای تنظیم دقیق یا مهندسی القای مدل‌های زبانی بزرگ موجود استفاده کنید. ورودی را به شکل `[قصد: درخواست؛ نوع اطلاعات: پارامتر؛ ردیابی تا: lib.foo.bar]` ساختار دهید، نه با استفاده از القای عمومی. برای تولیدکنندگان API: این پژوهش حلقه بازخورد مستقیمی به استراتژی مستندسازی شماست. بعد «ردیابی‌پذیری» مستقیماً به شکاف‌های مستندات نگاشت می‌یابد. در نهایت، این کار به طور قانع‌کننده‌ای استدلال می‌کند که پیشرفت بعدی در ابزارهای توسعه مبتنی بر هوش مصنوعی، نه از یک مدل زبانی بزرگ عمومی‌تر، بلکه از مدلی حاصل خواهد شد که بر روی پیکره‌های متنی ساختاریافته و باکیفیت بالا — مانند آنچه در این مقاله پایه‌گذاری شد — به طور تخصصی تنظیم دقیق شده باشد. اکنون، رقابت برای ساختن آن آغاز شده است.