موردی برای هوش عمومی مصنوعی روانسنجی

1. فهرست مطالب

2. مقدمه
3. بینش اصلی: تغییر پارادایم روانسنجی
4. جریان منطقی: از هوش مصنوعی محدود تا هوش عمومی
5. نقاط قوت و ضعف: ارزیابی انتقادی آزمون‌های هوش عمومی مصنوعی
6. بینش‌های عملی: جهت‌گیری‌های آینده
7. جزئیات فنی و فرمول‌بندی ریاضی
8. نتایج تجربی و تحلیل معیارها
9. چارچوب تحلیلی: مطالعه موردی ای‌آر‌سی
10. کاربردهای آینده و چشم‌انداز
11. تحلیل و تفسیر اصلی
12. مراجع

2. مقدمه

مقاله "موردی برای هوش عمومی مصنوعی روانسنجی" نوشته مارک مک‌فرسون (دانشگاه بورنموث، 2020) به طور انتقادی معیارها و آزمون‌های موجود برای اندازه‌گیری هوش عمومی مصنوعی (AGI) را بررسی می‌کند. نویسنده استدلال می‌کند که سیستم‌های هوش مصنوعی فعلی، علی‌رغم دستیابی به عملکرد فوق‌انسانی در حوزه‌های محدود مانند بازی گو، استارکرافت و تشخیص پزشکی، فاقد قابلیت‌های سازگاری و تعمیم‌دهی هوش انسانی هستند. تز اصلی این است که رویکردهای روانسنجی، به ویژه مجموعه استدلال و انتزاع (ARC) ارائه شده توسط چولت، امیدوارکننده‌ترین مسیر برای تشخیص و اندازه‌گیری هوش عمومی مصنوعی را ارائه می‌دهند.

3. بینش اصلی: تغییر پارادایم روانسنجی

بینش اساسی این مقاله این است که اندازه‌گیری هوش عمومی مصنوعی نیازمند تغییر پارادایم از معیارهای خاص وظیفه به چارچوب‌های روانسنجی است که توانایی‌های شناختی عمومی را ارزیابی می‌کنند. نویسنده استدلال می‌کند که معیارهای سنتی هوش مصنوعی (مانند بازی‌های رایانه‌ای، طبقه‌بندی تصاویر) ناکافی هستند زیرا عملکرد محدود و خاص دامنه را به جای هوش عمومی اندازه‌گیری می‌کنند. رویکرد روانسنجی، با الهام از تست هوش انسانی، بر اندازه‌گیری توانایی حل مسائل جدید در حوزه‌های متنوع بدون آموزش خاص وظیفه تمرکز دارد.

4. جریان منطقی: از هوش مصنوعی محدود تا هوش عمومی

این مقاله از یک پیشرفت منطقی واضح پیروی می‌کند:

شناسایی مشکل: سیستم‌های هوش مصنوعی فعلی محدود و شکننده هستند و زمانی که محیط‌ها کمی از شرایط آموزش منحرف می‌شوند، شکست می‌خورند.
تعریف هوش عمومی مصنوعی: هوش عمومی به عنوان توانایی انجام وظایف در حوزه‌های متعدد، از جمله مواردی که در زمان ایجاد ناشناخته هستند، تعریف می‌شود.
بررسی آزمون‌های موجود: نویسنده شش آزمون پیشنهادی توسط میخایلوفسکی (توضیح، مسئله‌سازی، رد، پیش‌بینی پدیده جدید، ایجاد کسب‌وکار، ایجاد نظریه) و معیار ARC چولت را ارزیابی می‌کند.
ارزیابی انتقادی: هر آزمون بر اساس معیارهایی از جمله عمومیت، عینیت، مقیاس‌پذیری و مقاومت در برابر تقلب ارزیابی می‌شود.
توصیه: رویکردهای روانسنجی، به ویژه ARC، به عنوان امیدوارکننده‌ترین جهت شناسایی می‌شوند.

5. نقاط قوت و ضعف: ارزیابی انتقادی آزمون‌های هوش عمومی مصنوعی

5.1 نقاط قوت رویکردهای روانسنجی

عمومیت: وظایف ARC نیاز به استدلال در مورد الگوهای انتزاعی دارند، نه دانش خاص دامنه.
عینیت: عملکرد با موفقیت در وظایف دیده نشده اندازه‌گیری می‌شود و سوگیری را کاهش می‌دهد.
مقیاس‌پذیری: مجموعه داده ARC شامل 800 وظیفه است که امکان تحلیل آماری قوی را فراهم می‌کند.

5.2 نقاط ضعف و محدودیت‌ها

آزمون‌های میخایلوفسکی: آزمون‌های توضیح، ایجاد نظریه و ایجاد کسب‌وکار بیش از حد انسان‌محور هستند و خودکارسازی عینی آن‌ها دشوار است. آن‌ها به خلاقیت در سطح انسانی و تعامل با دنیای واقعی نیاز دارند که ممکن است برای هوش عمومی مصنوعی ضروری نباشد.
محدودیت‌های ARC: اگرچه امیدوارکننده است، ARC عمدتاً بر استدلال بصری تمرکز دارد و ممکن است ابعاد دیگر هوش (مانند استدلال اجتماعی، زبانی یا فیزیکی) را در بر نگیرد.
عدم وجود پویایی زمانی: بیشتر آزمون‌ها ایستا هستند و یادگیری در طول زمان یا سازگاری با محیط‌های در حال تغییر را ارزیابی نمی‌کنند.

6. بینش‌های عملی: جهت‌گیری‌های آینده

بر اساس تحلیل، مقاله چندین جهت عملی را پیشنهاد می‌کند:

توسعه معیارهای ترکیبی: ترکیب وظایف روانسنجی با محیط‌های پویا و تعاملی برای ارزیابی هم استدلال و هم سازگاری.
گنجاندن چندین حالت: گسترش ARC برای شامل شدن وظایف استدلال زبانی، شنیداری و فیزیکی.
تمرکز بر تعمیم ترکیبی: طراحی وظایفی که نیاز به ترکیب مفاهیم آموخته شده به روش‌های جدید دارند، که جنبه کلیدی هوش انسانی است.
پذیرش گزارش‌دهی استاندارد: استفاده از معیارهای روانسنجی (مانند پایایی، روایی، نظریه پاسخ آیتم) برای اطمینان از دقت علمی معیارها.

7. جزئیات فنی و فرمول‌بندی ریاضی

رویکرد روانسنجی به اندازه‌گیری هوش عمومی مصنوعی را می‌توان با استفاده از نظریه پاسخ آیتم (IRT) رسمی کرد. اجازه دهید θ نشان‌دهنده هوش عمومی نهفته یک عامل باشد. احتمال حل صحیح وظیفه i با دشواری b_i و تمایز a_i توسط مدل لجستیک به دست می‌آید:

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

برای معیار ARC، هر وظیفه از جفت‌های شبکه ورودی-خروجی تشکیل شده است. عامل باید تبدیل زیربنایی $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ را از چند مثال استنباط کرده و آن را به یک ورودی جدید اعمال کند. معیار عملکرد، دقت در وظایف کنار گذاشته شده، وزن‌دهی شده بر اساس دشواری وظیفه است.

8. نتایج تجربی و تحلیل معیارها

این مقاله آزمایش‌های اصلی ارائه نمی‌دهد، بلکه نتایج موجود را مرور می‌کند. یافته‌های کلیدی از ادبیات عبارتند از:

عملکرد انسانی در ARC: انسان‌ها تقریباً 80-90٪ دقت در وظایف ARC به دست می‌آورند که امکان‌پذیری این معیار را نشان می‌دهد.
عملکرد هوش مصنوعی: سیستم‌های هوش مصنوعی پیشرفته فعلی (تا سال 2020) کمتر از 30٪ دقت در ARC به دست می‌آورند که شکاف بین هوش محدود و عمومی را برجسته می‌کند.
مقایسه با سایر معیارها: ARC چالش‌برانگیزتر از تست‌های IQ سنتی برای هوش مصنوعی است زیرا نیاز به استدلال برنامه‌مانند دارد نه تطبیق الگو.

شکل 1: یک نمودار میله‌ای فرضی که عملکرد انسان در مقابل هوش مصنوعی را در وظایف ARC در سطوح دشواری (آسان، متوسط، سخت) مقایسه می‌کند. انسان‌ها به طور مداوم از هوش مصنوعی بهتر عمل می‌کنند و این شکاف در وظایف سخت‌تر بیشتر می‌شود.

9. چارچوب تحلیلی: مطالعه موردی ARC

برای نشان دادن رویکرد روانسنجی، یک وظیفه ARC را در نظر بگیرید که در آن ورودی یک شبکه 3x3 با سلول‌های رنگی است و خروجی یک شبکه 3x3 با الگوی متفاوت است. عامل باید قانون (مثلاً "الگو را 90 درجه در جهت عقربه‌های ساعت بچرخان") را از دو مثال استنباط کرده و آن را به یک ورودی سوم اعمال کند.

وظیفه مثال:

ورودی 1: [[0,1,0],[1,0,1],[0,1,0]] → خروجی 1: [[0,1,0],[1,0,1],[0,1,0]] (بدون تغییر، تقارن)
ورودی 2: [[1,0,0],[0,1,0],[0,0,1]] → خروجی 2: [[0,0,1],[0,1,0],[1,0,0]] (برعکس کردن در امتداد قطر فرعی)
ورودی آزمایش: [[0,0,1],[0,1,0],[1,0,0]] → خروجی مورد انتظار: [[1,0,0],[0,1,0],[0,0,1]]

این وظیفه از عامل می‌خواهد که قانون تبدیل (برعکس کردن در امتداد قطر فرعی) را تشخیص داده و آن را به یک الگوی جدید اعمال کند. ارزش روانسنجی در این واقعیت نهفته است که قانون انتزاعی است و به هیچ حوزه خاصی وابسته نیست.

10. کاربردهای آینده و چشم‌انداز

رویکرد روانسنجی به هوش عمومی مصنوعی چندین کاربرد امیدوارکننده دارد:

ایمنی هوش مصنوعی: معیارهای روانسنجی می‌توانند با آزمایش تعمیم به سناریوهای جدید، به تشخیص خرابی‌های غیرمنتظره در سیستم‌های هوش مصنوعی کمک کنند.
همکاری انسان و هوش مصنوعی: درک نمایه شناختی یک هوش مصنوعی (مثلاً نقاط قوت در استدلال بصری در مقابل زبانی) می‌تواند همکاری با انسان‌ها را بهبود بخشد.
هوش مصنوعی آموزشی: چارچوب‌های روانسنجی می‌توانند توسعه مربیان هوش مصنوعی را که با سبک‌های یادگیری فردی سازگار می‌شوند، هدایت کنند.
علوم اعصاب: مقایسه عملکرد انسان و هوش مصنوعی در وظایف روانسنجی می‌تواند بر اساس عصبی هوش عمومی نور افکند.

جهت‌گیری‌های آینده شامل ادغام معیارهای روانسنجی با محیط‌های یادگیری تقویتی، توسعه آزمون‌های پویا که با سطح توانایی عامل سازگار می‌شوند، و ایجاد معیارهای چندحالتی که استدلال را در سراسر حالت‌های حسی ارزیابی می‌کنند، است.

11. تحلیل و تفسیر اصلی

این مقاله استدلال قانع‌کننده‌ای برای رویکردهای روانسنجی به هوش عمومی مصنوعی ارائه می‌دهد، اما چند نکته انتقادی شایسته بررسی است. اول، اتکا به هوش انسان‌مانند به عنوان استاندارد طلایی از نظر فلسفی قابل بحث است. همانطور که بوستروم (2014) در "ابر هوش" استدلال می‌کند، هوش عمومی مصنوعی ممکن است اشکالی از هوش را نشان دهد که از نظر کیفی با شناخت انسان متفاوت است و معیارهای انسان‌محور را به طور بالقوه گمراه‌کننده می‌کند. دوم، معیار ARC، اگرچه ظریف است، ممکن است بیش از حد محدود باشد. همانطور که لیک و همکاران (2017) در "ساخت ماشین‌هایی که مانند انسان‌ها یاد می‌گیرند و فکر می‌کنند" اشاره کرده‌اند، هوش انسانی نه تنها شامل استدلال انتزاعی، بلکه فیزیک شهودی، شناخت اجتماعی و درک زبان نیز می‌شود. یک معیار هوش عمومی واقعی باید این ابعاد را در بر گیرد. سوم، مقاله پتانسیل آزمایش خصمانه را نادیده می‌گیرد. همانطور که گودفلو و همکاران (2014) در مقاله اصلی GAN نشان دادند، مثال‌های خصمانه می‌توانند نقاط ضعف اساسی در سیستم‌های هوش مصنوعی را که معیارهای استاندارد از دست می‌دهند، آشکار کنند. گنجاندن عناصر خصمانه در آزمون‌های روانسنجی می‌تواند ارزیابی قوی‌تری از تعمیم ارائه دهد. در نهایت، تمرکز مقاله بر اندازه‌گیری به جای معماری یک نقطه قوت است، اما خطر نادیده گرفتن این سوال را دارد که چگونه هوش عمومی مصنوعی را بسازیم. همانطور که یودکوسکی (2008) استدلال می‌کند، مشکل هم‌راستایی نیاز به درک مکانیسم‌های داخلی سیستم‌های هوش مصنوعی دارد، نه فقط رفتار خارجی آن‌ها. با وجود این محدودیت‌ها، مقاله یک چارچوب ارزشمند برای تفکر در مورد ارزیابی هوش عمومی مصنوعی ارائه می‌دهد و به درستی بر نیاز به معیارهای دقیق و معتبر از نظر روانسنجی تأکید می‌کند.

12. مراجع

مک‌کارتی، جی.، و همکاران. (1956). پیشنهادی برای پروژه تحقیقاتی تابستانی دارتموث در مورد هوش مصنوعی.
سیلور، دی.، و همکاران. (2016). تسلط بر بازی گو با شبکه‌های عصبی عمیق و جستجوی درخت. نیچر، 529(7587)، 484-489.
وینیالز، او.، و همکاران. (2019). سطح استاد بزرگ در استارکرافت II با استفاده از یادگیری تقویتی چندعاملی. نیچر، 575(7782)، 350-354.
کریژفسکی، آ.، و همکاران. (2012). طبقه‌بندی ImageNet با شبکه‌های عصبی کانولوشنی عمیق. نورآی‌پی‌اس.
واسوانی، آ.، و همکاران. (2017). توجه تنها چیزی است که نیاز دارید. نورآی‌پی‌اس.
استوا، آ.، و همکاران. (2017). طبقه‌بندی سرطان پوست در سطح متخصص پوست با شبکه‌های عصبی عمیق. نیچر، 542(7639)، 115-118.
مارکوس، جی. (2018). یادگیری عمیق: یک ارزیابی انتقادی. arXiv:1801.00631.
سرل، جی. (1980). ذهن‌ها، مغزها و برنامه‌ها. علوم رفتاری و مغزی، 3(3)، 417-424.
تامسون، دبلیو. (1889). سخنرانی‌ها و خطابه‌های عمومی.
آدامز، اس.، و همکاران. (2012). نقشه‌برداری از چشم‌انداز هوش عمومی مصنوعی در سطح انسانی. مجله هوش مصنوعی، 33(1)، 25-42.
گورتزل، بی. (2014). هوش عمومی مصنوعی: مفهوم، وضعیت هنر و چشم‌انداز آینده. مجله هوش عمومی مصنوعی، 5(1)، 1-48.
برینگسجورد، اس.، و شیمانسکی، بی. (2003). هوش مصنوعی چیست؟ هوش مصنوعی روانسنجی به عنوان یک پاسخ. آی‌جی‌سی‌ای‌آی.
میخایلوفسکی، ن. (2020). شش آزمون برای هوش عمومی مصنوعی. arXiv:2005.05718.
چولت، اف. (2019). در مورد اندازه‌گیری هوش. arXiv:1911.01547.
بوستروم، ن. (2014). ابر هوش: مسیرها، خطرات، استراتژی‌ها. انتشارات دانشگاه آکسفورد.
لیک، بی. ام.، و همکاران. (2017). ساخت ماشین‌هایی که مانند انسان‌ها یاد می‌گیرند و فکر می‌کنند. علوم رفتاری و مغزی، 40، e253.
گودفلو، آی.، و همکاران. (2014). شبکه‌های مولد خصمانه. نورآی‌پی‌اس.
یودکوسکی، ای. (2008). هوش مصنوعی به عنوان یک عامل مثبت و منفی در خطر جهانی. در خطرات فاجعه‌بار جهانی، انتشارات دانشگاه آکسفورد.