1. فهرست مطالب
- 2. مقدمه
- 3. بینش اصلی: تغییر پارادایم روانسنجی
- 4. جریان منطقی: از هوش مصنوعی محدود تا هوش عمومی
- 5. نقاط قوت و ضعف: ارزیابی انتقادی آزمونهای هوش عمومی مصنوعی
- 6. بینشهای عملی: جهتگیریهای آینده
- 7. جزئیات فنی و فرمولبندی ریاضی
- 8. نتایج تجربی و تحلیل معیارها
- 9. چارچوب تحلیلی: مطالعه موردی ایآرسی
- 10. کاربردهای آینده و چشمانداز
- 11. تحلیل و تفسیر اصلی
- 12. مراجع
2. مقدمه
مقاله "موردی برای هوش عمومی مصنوعی روانسنجی" نوشته مارک مکفرسون (دانشگاه بورنموث، 2020) به طور انتقادی معیارها و آزمونهای موجود برای اندازهگیری هوش عمومی مصنوعی (AGI) را بررسی میکند. نویسنده استدلال میکند که سیستمهای هوش مصنوعی فعلی، علیرغم دستیابی به عملکرد فوقانسانی در حوزههای محدود مانند بازی گو، استارکرافت و تشخیص پزشکی، فاقد قابلیتهای سازگاری و تعمیمدهی هوش انسانی هستند. تز اصلی این است که رویکردهای روانسنجی، به ویژه مجموعه استدلال و انتزاع (ARC) ارائه شده توسط چولت، امیدوارکنندهترین مسیر برای تشخیص و اندازهگیری هوش عمومی مصنوعی را ارائه میدهند.
3. بینش اصلی: تغییر پارادایم روانسنجی
بینش اساسی این مقاله این است که اندازهگیری هوش عمومی مصنوعی نیازمند تغییر پارادایم از معیارهای خاص وظیفه به چارچوبهای روانسنجی است که تواناییهای شناختی عمومی را ارزیابی میکنند. نویسنده استدلال میکند که معیارهای سنتی هوش مصنوعی (مانند بازیهای رایانهای، طبقهبندی تصاویر) ناکافی هستند زیرا عملکرد محدود و خاص دامنه را به جای هوش عمومی اندازهگیری میکنند. رویکرد روانسنجی، با الهام از تست هوش انسانی، بر اندازهگیری توانایی حل مسائل جدید در حوزههای متنوع بدون آموزش خاص وظیفه تمرکز دارد.
4. جریان منطقی: از هوش مصنوعی محدود تا هوش عمومی
این مقاله از یک پیشرفت منطقی واضح پیروی میکند:
- شناسایی مشکل: سیستمهای هوش مصنوعی فعلی محدود و شکننده هستند و زمانی که محیطها کمی از شرایط آموزش منحرف میشوند، شکست میخورند.
- تعریف هوش عمومی مصنوعی: هوش عمومی به عنوان توانایی انجام وظایف در حوزههای متعدد، از جمله مواردی که در زمان ایجاد ناشناخته هستند، تعریف میشود.
- بررسی آزمونهای موجود: نویسنده شش آزمون پیشنهادی توسط میخایلوفسکی (توضیح، مسئلهسازی، رد، پیشبینی پدیده جدید، ایجاد کسبوکار، ایجاد نظریه) و معیار ARC چولت را ارزیابی میکند.
- ارزیابی انتقادی: هر آزمون بر اساس معیارهایی از جمله عمومیت، عینیت، مقیاسپذیری و مقاومت در برابر تقلب ارزیابی میشود.
- توصیه: رویکردهای روانسنجی، به ویژه ARC، به عنوان امیدوارکنندهترین جهت شناسایی میشوند.
5. نقاط قوت و ضعف: ارزیابی انتقادی آزمونهای هوش عمومی مصنوعی
5.1 نقاط قوت رویکردهای روانسنجی
- عمومیت: وظایف ARC نیاز به استدلال در مورد الگوهای انتزاعی دارند، نه دانش خاص دامنه.
- عینیت: عملکرد با موفقیت در وظایف دیده نشده اندازهگیری میشود و سوگیری را کاهش میدهد.
- مقیاسپذیری: مجموعه داده ARC شامل 800 وظیفه است که امکان تحلیل آماری قوی را فراهم میکند.
5.2 نقاط ضعف و محدودیتها
- آزمونهای میخایلوفسکی: آزمونهای توضیح، ایجاد نظریه و ایجاد کسبوکار بیش از حد انسانمحور هستند و خودکارسازی عینی آنها دشوار است. آنها به خلاقیت در سطح انسانی و تعامل با دنیای واقعی نیاز دارند که ممکن است برای هوش عمومی مصنوعی ضروری نباشد.
- محدودیتهای ARC: اگرچه امیدوارکننده است، ARC عمدتاً بر استدلال بصری تمرکز دارد و ممکن است ابعاد دیگر هوش (مانند استدلال اجتماعی، زبانی یا فیزیکی) را در بر نگیرد.
- عدم وجود پویایی زمانی: بیشتر آزمونها ایستا هستند و یادگیری در طول زمان یا سازگاری با محیطهای در حال تغییر را ارزیابی نمیکنند.
6. بینشهای عملی: جهتگیریهای آینده
بر اساس تحلیل، مقاله چندین جهت عملی را پیشنهاد میکند:
- توسعه معیارهای ترکیبی: ترکیب وظایف روانسنجی با محیطهای پویا و تعاملی برای ارزیابی هم استدلال و هم سازگاری.
- گنجاندن چندین حالت: گسترش ARC برای شامل شدن وظایف استدلال زبانی، شنیداری و فیزیکی.
- تمرکز بر تعمیم ترکیبی: طراحی وظایفی که نیاز به ترکیب مفاهیم آموخته شده به روشهای جدید دارند، که جنبه کلیدی هوش انسانی است.
- پذیرش گزارشدهی استاندارد: استفاده از معیارهای روانسنجی (مانند پایایی، روایی، نظریه پاسخ آیتم) برای اطمینان از دقت علمی معیارها.
7. جزئیات فنی و فرمولبندی ریاضی
رویکرد روانسنجی به اندازهگیری هوش عمومی مصنوعی را میتوان با استفاده از نظریه پاسخ آیتم (IRT) رسمی کرد. اجازه دهید θ نشاندهنده هوش عمومی نهفته یک عامل باشد. احتمال حل صحیح وظیفه i با دشواری b_i و تمایز a_i توسط مدل لجستیک به دست میآید:
$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$
برای معیار ARC، هر وظیفه از جفتهای شبکه ورودی-خروجی تشکیل شده است. عامل باید تبدیل زیربنایی $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ را از چند مثال استنباط کرده و آن را به یک ورودی جدید اعمال کند. معیار عملکرد، دقت در وظایف کنار گذاشته شده، وزندهی شده بر اساس دشواری وظیفه است.
8. نتایج تجربی و تحلیل معیارها
این مقاله آزمایشهای اصلی ارائه نمیدهد، بلکه نتایج موجود را مرور میکند. یافتههای کلیدی از ادبیات عبارتند از:
- عملکرد انسانی در ARC: انسانها تقریباً 80-90٪ دقت در وظایف ARC به دست میآورند که امکانپذیری این معیار را نشان میدهد.
- عملکرد هوش مصنوعی: سیستمهای هوش مصنوعی پیشرفته فعلی (تا سال 2020) کمتر از 30٪ دقت در ARC به دست میآورند که شکاف بین هوش محدود و عمومی را برجسته میکند.
- مقایسه با سایر معیارها: ARC چالشبرانگیزتر از تستهای IQ سنتی برای هوش مصنوعی است زیرا نیاز به استدلال برنامهمانند دارد نه تطبیق الگو.
شکل 1: یک نمودار میلهای فرضی که عملکرد انسان در مقابل هوش مصنوعی را در وظایف ARC در سطوح دشواری (آسان، متوسط، سخت) مقایسه میکند. انسانها به طور مداوم از هوش مصنوعی بهتر عمل میکنند و این شکاف در وظایف سختتر بیشتر میشود.
9. چارچوب تحلیلی: مطالعه موردی ARC
برای نشان دادن رویکرد روانسنجی، یک وظیفه ARC را در نظر بگیرید که در آن ورودی یک شبکه 3x3 با سلولهای رنگی است و خروجی یک شبکه 3x3 با الگوی متفاوت است. عامل باید قانون (مثلاً "الگو را 90 درجه در جهت عقربههای ساعت بچرخان") را از دو مثال استنباط کرده و آن را به یک ورودی سوم اعمال کند.
وظیفه مثال:
- ورودی 1: [[0,1,0],[1,0,1],[0,1,0]] → خروجی 1: [[0,1,0],[1,0,1],[0,1,0]] (بدون تغییر، تقارن)
- ورودی 2: [[1,0,0],[0,1,0],[0,0,1]] → خروجی 2: [[0,0,1],[0,1,0],[1,0,0]] (برعکس کردن در امتداد قطر فرعی)
- ورودی آزمایش: [[0,0,1],[0,1,0],[1,0,0]] → خروجی مورد انتظار: [[1,0,0],[0,1,0],[0,0,1]]
این وظیفه از عامل میخواهد که قانون تبدیل (برعکس کردن در امتداد قطر فرعی) را تشخیص داده و آن را به یک الگوی جدید اعمال کند. ارزش روانسنجی در این واقعیت نهفته است که قانون انتزاعی است و به هیچ حوزه خاصی وابسته نیست.
10. کاربردهای آینده و چشمانداز
رویکرد روانسنجی به هوش عمومی مصنوعی چندین کاربرد امیدوارکننده دارد:
- ایمنی هوش مصنوعی: معیارهای روانسنجی میتوانند با آزمایش تعمیم به سناریوهای جدید، به تشخیص خرابیهای غیرمنتظره در سیستمهای هوش مصنوعی کمک کنند.
- همکاری انسان و هوش مصنوعی: درک نمایه شناختی یک هوش مصنوعی (مثلاً نقاط قوت در استدلال بصری در مقابل زبانی) میتواند همکاری با انسانها را بهبود بخشد.
- هوش مصنوعی آموزشی: چارچوبهای روانسنجی میتوانند توسعه مربیان هوش مصنوعی را که با سبکهای یادگیری فردی سازگار میشوند، هدایت کنند.
- علوم اعصاب: مقایسه عملکرد انسان و هوش مصنوعی در وظایف روانسنجی میتواند بر اساس عصبی هوش عمومی نور افکند.
جهتگیریهای آینده شامل ادغام معیارهای روانسنجی با محیطهای یادگیری تقویتی، توسعه آزمونهای پویا که با سطح توانایی عامل سازگار میشوند، و ایجاد معیارهای چندحالتی که استدلال را در سراسر حالتهای حسی ارزیابی میکنند، است.
11. تحلیل و تفسیر اصلی
این مقاله استدلال قانعکنندهای برای رویکردهای روانسنجی به هوش عمومی مصنوعی ارائه میدهد، اما چند نکته انتقادی شایسته بررسی است. اول، اتکا به هوش انسانمانند به عنوان استاندارد طلایی از نظر فلسفی قابل بحث است. همانطور که بوستروم (2014) در "ابر هوش" استدلال میکند، هوش عمومی مصنوعی ممکن است اشکالی از هوش را نشان دهد که از نظر کیفی با شناخت انسان متفاوت است و معیارهای انسانمحور را به طور بالقوه گمراهکننده میکند. دوم، معیار ARC، اگرچه ظریف است، ممکن است بیش از حد محدود باشد. همانطور که لیک و همکاران (2017) در "ساخت ماشینهایی که مانند انسانها یاد میگیرند و فکر میکنند" اشاره کردهاند، هوش انسانی نه تنها شامل استدلال انتزاعی، بلکه فیزیک شهودی، شناخت اجتماعی و درک زبان نیز میشود. یک معیار هوش عمومی واقعی باید این ابعاد را در بر گیرد. سوم، مقاله پتانسیل آزمایش خصمانه را نادیده میگیرد. همانطور که گودفلو و همکاران (2014) در مقاله اصلی GAN نشان دادند، مثالهای خصمانه میتوانند نقاط ضعف اساسی در سیستمهای هوش مصنوعی را که معیارهای استاندارد از دست میدهند، آشکار کنند. گنجاندن عناصر خصمانه در آزمونهای روانسنجی میتواند ارزیابی قویتری از تعمیم ارائه دهد. در نهایت، تمرکز مقاله بر اندازهگیری به جای معماری یک نقطه قوت است، اما خطر نادیده گرفتن این سوال را دارد که چگونه هوش عمومی مصنوعی را بسازیم. همانطور که یودکوسکی (2008) استدلال میکند، مشکل همراستایی نیاز به درک مکانیسمهای داخلی سیستمهای هوش مصنوعی دارد، نه فقط رفتار خارجی آنها. با وجود این محدودیتها، مقاله یک چارچوب ارزشمند برای تفکر در مورد ارزیابی هوش عمومی مصنوعی ارائه میدهد و به درستی بر نیاز به معیارهای دقیق و معتبر از نظر روانسنجی تأکید میکند.
12. مراجع
- مککارتی، جی.، و همکاران. (1956). پیشنهادی برای پروژه تحقیقاتی تابستانی دارتموث در مورد هوش مصنوعی.
- سیلور، دی.، و همکاران. (2016). تسلط بر بازی گو با شبکههای عصبی عمیق و جستجوی درخت. نیچر، 529(7587)، 484-489.
- وینیالز، او.، و همکاران. (2019). سطح استاد بزرگ در استارکرافت II با استفاده از یادگیری تقویتی چندعاملی. نیچر، 575(7782)، 350-354.
- کریژفسکی، آ.، و همکاران. (2012). طبقهبندی ImageNet با شبکههای عصبی کانولوشنی عمیق. نورآیپیاس.
- واسوانی، آ.، و همکاران. (2017). توجه تنها چیزی است که نیاز دارید. نورآیپیاس.
- استوا، آ.، و همکاران. (2017). طبقهبندی سرطان پوست در سطح متخصص پوست با شبکههای عصبی عمیق. نیچر، 542(7639)، 115-118.
- مارکوس، جی. (2018). یادگیری عمیق: یک ارزیابی انتقادی. arXiv:1801.00631.
- سرل، جی. (1980). ذهنها، مغزها و برنامهها. علوم رفتاری و مغزی، 3(3)، 417-424.
- تامسون، دبلیو. (1889). سخنرانیها و خطابههای عمومی.
- آدامز، اس.، و همکاران. (2012). نقشهبرداری از چشمانداز هوش عمومی مصنوعی در سطح انسانی. مجله هوش مصنوعی، 33(1)، 25-42.
- گورتزل، بی. (2014). هوش عمومی مصنوعی: مفهوم، وضعیت هنر و چشمانداز آینده. مجله هوش عمومی مصنوعی، 5(1)، 1-48.
- برینگسجورد، اس.، و شیمانسکی، بی. (2003). هوش مصنوعی چیست؟ هوش مصنوعی روانسنجی به عنوان یک پاسخ. آیجیسیایآی.
- میخایلوفسکی، ن. (2020). شش آزمون برای هوش عمومی مصنوعی. arXiv:2005.05718.
- چولت، اف. (2019). در مورد اندازهگیری هوش. arXiv:1911.01547.
- بوستروم، ن. (2014). ابر هوش: مسیرها، خطرات، استراتژیها. انتشارات دانشگاه آکسفورد.
- لیک، بی. ام.، و همکاران. (2017). ساخت ماشینهایی که مانند انسانها یاد میگیرند و فکر میکنند. علوم رفتاری و مغزی، 40، e253.
- گودفلو، آی.، و همکاران. (2014). شبکههای مولد خصمانه. نورآیپیاس.
- یودکوسکی، ای. (2008). هوش مصنوعی به عنوان یک عامل مثبت و منفی در خطر جهانی. در خطرات فاجعهبار جهانی، انتشارات دانشگاه آکسفورد.