انتخاب زبان

موردی برای هوش عمومی مصنوعی روانسنجی

بررسی انتقادی معیارها و آزمون‌های هوش عمومی مصنوعی، با پیشنهاد رویکردهای روانسنجی برای اندازه‌گیری هوش عمومی در سیستم‌های هوش مصنوعی.
agi-friend.com | PDF Size: 0.1 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - موردی برای هوش عمومی مصنوعی روانسنجی

1. فهرست مطالب

2. مقدمه

مقاله "موردی برای هوش عمومی مصنوعی روانسنجی" نوشته مارک مک‌فرسون (دانشگاه بورنموث، 2020) به طور انتقادی معیارها و آزمون‌های موجود برای اندازه‌گیری هوش عمومی مصنوعی (AGI) را بررسی می‌کند. نویسنده استدلال می‌کند که سیستم‌های هوش مصنوعی فعلی، علی‌رغم دستیابی به عملکرد فوق‌انسانی در حوزه‌های محدود مانند بازی گو، استارکرافت و تشخیص پزشکی، فاقد قابلیت‌های سازگاری و تعمیم‌دهی هوش انسانی هستند. تز اصلی این است که رویکردهای روانسنجی، به ویژه مجموعه استدلال و انتزاع (ARC) ارائه شده توسط چولت، امیدوارکننده‌ترین مسیر برای تشخیص و اندازه‌گیری هوش عمومی مصنوعی را ارائه می‌دهند.

3. بینش اصلی: تغییر پارادایم روانسنجی

بینش اساسی این مقاله این است که اندازه‌گیری هوش عمومی مصنوعی نیازمند تغییر پارادایم از معیارهای خاص وظیفه به چارچوب‌های روانسنجی است که توانایی‌های شناختی عمومی را ارزیابی می‌کنند. نویسنده استدلال می‌کند که معیارهای سنتی هوش مصنوعی (مانند بازی‌های رایانه‌ای، طبقه‌بندی تصاویر) ناکافی هستند زیرا عملکرد محدود و خاص دامنه را به جای هوش عمومی اندازه‌گیری می‌کنند. رویکرد روانسنجی، با الهام از تست هوش انسانی، بر اندازه‌گیری توانایی حل مسائل جدید در حوزه‌های متنوع بدون آموزش خاص وظیفه تمرکز دارد.

4. جریان منطقی: از هوش مصنوعی محدود تا هوش عمومی

این مقاله از یک پیشرفت منطقی واضح پیروی می‌کند:

  1. شناسایی مشکل: سیستم‌های هوش مصنوعی فعلی محدود و شکننده هستند و زمانی که محیط‌ها کمی از شرایط آموزش منحرف می‌شوند، شکست می‌خورند.
  2. تعریف هوش عمومی مصنوعی: هوش عمومی به عنوان توانایی انجام وظایف در حوزه‌های متعدد، از جمله مواردی که در زمان ایجاد ناشناخته هستند، تعریف می‌شود.
  3. بررسی آزمون‌های موجود: نویسنده شش آزمون پیشنهادی توسط میخایلوفسکی (توضیح، مسئله‌سازی، رد، پیش‌بینی پدیده جدید، ایجاد کسب‌وکار، ایجاد نظریه) و معیار ARC چولت را ارزیابی می‌کند.
  4. ارزیابی انتقادی: هر آزمون بر اساس معیارهایی از جمله عمومیت، عینیت، مقیاس‌پذیری و مقاومت در برابر تقلب ارزیابی می‌شود.
  5. توصیه: رویکردهای روانسنجی، به ویژه ARC، به عنوان امیدوارکننده‌ترین جهت شناسایی می‌شوند.

5. نقاط قوت و ضعف: ارزیابی انتقادی آزمون‌های هوش عمومی مصنوعی

5.1 نقاط قوت رویکردهای روانسنجی

5.2 نقاط ضعف و محدودیت‌ها

6. بینش‌های عملی: جهت‌گیری‌های آینده

بر اساس تحلیل، مقاله چندین جهت عملی را پیشنهاد می‌کند:

7. جزئیات فنی و فرمول‌بندی ریاضی

رویکرد روانسنجی به اندازه‌گیری هوش عمومی مصنوعی را می‌توان با استفاده از نظریه پاسخ آیتم (IRT) رسمی کرد. اجازه دهید θ نشان‌دهنده هوش عمومی نهفته یک عامل باشد. احتمال حل صحیح وظیفه i با دشواری b_i و تمایز a_i توسط مدل لجستیک به دست می‌آید:

$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$

برای معیار ARC، هر وظیفه از جفت‌های شبکه ورودی-خروجی تشکیل شده است. عامل باید تبدیل زیربنایی $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ را از چند مثال استنباط کرده و آن را به یک ورودی جدید اعمال کند. معیار عملکرد، دقت در وظایف کنار گذاشته شده، وزن‌دهی شده بر اساس دشواری وظیفه است.

8. نتایج تجربی و تحلیل معیارها

این مقاله آزمایش‌های اصلی ارائه نمی‌دهد، بلکه نتایج موجود را مرور می‌کند. یافته‌های کلیدی از ادبیات عبارتند از:

شکل 1: یک نمودار میله‌ای فرضی که عملکرد انسان در مقابل هوش مصنوعی را در وظایف ARC در سطوح دشواری (آسان، متوسط، سخت) مقایسه می‌کند. انسان‌ها به طور مداوم از هوش مصنوعی بهتر عمل می‌کنند و این شکاف در وظایف سخت‌تر بیشتر می‌شود.

9. چارچوب تحلیلی: مطالعه موردی ARC

برای نشان دادن رویکرد روانسنجی، یک وظیفه ARC را در نظر بگیرید که در آن ورودی یک شبکه 3x3 با سلول‌های رنگی است و خروجی یک شبکه 3x3 با الگوی متفاوت است. عامل باید قانون (مثلاً "الگو را 90 درجه در جهت عقربه‌های ساعت بچرخان") را از دو مثال استنباط کرده و آن را به یک ورودی سوم اعمال کند.

وظیفه مثال:

این وظیفه از عامل می‌خواهد که قانون تبدیل (برعکس کردن در امتداد قطر فرعی) را تشخیص داده و آن را به یک الگوی جدید اعمال کند. ارزش روانسنجی در این واقعیت نهفته است که قانون انتزاعی است و به هیچ حوزه خاصی وابسته نیست.

10. کاربردهای آینده و چشم‌انداز

رویکرد روانسنجی به هوش عمومی مصنوعی چندین کاربرد امیدوارکننده دارد:

جهت‌گیری‌های آینده شامل ادغام معیارهای روانسنجی با محیط‌های یادگیری تقویتی، توسعه آزمون‌های پویا که با سطح توانایی عامل سازگار می‌شوند، و ایجاد معیارهای چندحالتی که استدلال را در سراسر حالت‌های حسی ارزیابی می‌کنند، است.

11. تحلیل و تفسیر اصلی

این مقاله استدلال قانع‌کننده‌ای برای رویکردهای روانسنجی به هوش عمومی مصنوعی ارائه می‌دهد، اما چند نکته انتقادی شایسته بررسی است. اول، اتکا به هوش انسان‌مانند به عنوان استاندارد طلایی از نظر فلسفی قابل بحث است. همانطور که بوستروم (2014) در "ابر هوش" استدلال می‌کند، هوش عمومی مصنوعی ممکن است اشکالی از هوش را نشان دهد که از نظر کیفی با شناخت انسان متفاوت است و معیارهای انسان‌محور را به طور بالقوه گمراه‌کننده می‌کند. دوم، معیار ARC، اگرچه ظریف است، ممکن است بیش از حد محدود باشد. همانطور که لیک و همکاران (2017) در "ساخت ماشین‌هایی که مانند انسان‌ها یاد می‌گیرند و فکر می‌کنند" اشاره کرده‌اند، هوش انسانی نه تنها شامل استدلال انتزاعی، بلکه فیزیک شهودی، شناخت اجتماعی و درک زبان نیز می‌شود. یک معیار هوش عمومی واقعی باید این ابعاد را در بر گیرد. سوم، مقاله پتانسیل آزمایش خصمانه را نادیده می‌گیرد. همانطور که گودفلو و همکاران (2014) در مقاله اصلی GAN نشان دادند، مثال‌های خصمانه می‌توانند نقاط ضعف اساسی در سیستم‌های هوش مصنوعی را که معیارهای استاندارد از دست می‌دهند، آشکار کنند. گنجاندن عناصر خصمانه در آزمون‌های روانسنجی می‌تواند ارزیابی قوی‌تری از تعمیم ارائه دهد. در نهایت، تمرکز مقاله بر اندازه‌گیری به جای معماری یک نقطه قوت است، اما خطر نادیده گرفتن این سوال را دارد که چگونه هوش عمومی مصنوعی را بسازیم. همانطور که یودکوسکی (2008) استدلال می‌کند، مشکل هم‌راستایی نیاز به درک مکانیسم‌های داخلی سیستم‌های هوش مصنوعی دارد، نه فقط رفتار خارجی آن‌ها. با وجود این محدودیت‌ها، مقاله یک چارچوب ارزشمند برای تفکر در مورد ارزیابی هوش عمومی مصنوعی ارائه می‌دهد و به درستی بر نیاز به معیارهای دقیق و معتبر از نظر روانسنجی تأکید می‌کند.

12. مراجع

  1. مک‌کارتی، جی.، و همکاران. (1956). پیشنهادی برای پروژه تحقیقاتی تابستانی دارتموث در مورد هوش مصنوعی.
  2. سیلور، دی.، و همکاران. (2016). تسلط بر بازی گو با شبکه‌های عصبی عمیق و جستجوی درخت. نیچر، 529(7587)، 484-489.
  3. وینیالز، او.، و همکاران. (2019). سطح استاد بزرگ در استارکرافت II با استفاده از یادگیری تقویتی چندعاملی. نیچر، 575(7782)، 350-354.
  4. کریژفسکی، آ.، و همکاران. (2012). طبقه‌بندی ImageNet با شبکه‌های عصبی کانولوشنی عمیق. نورآی‌پی‌اس.
  5. واسوانی، آ.، و همکاران. (2017). توجه تنها چیزی است که نیاز دارید. نورآی‌پی‌اس.
  6. استوا، آ.، و همکاران. (2017). طبقه‌بندی سرطان پوست در سطح متخصص پوست با شبکه‌های عصبی عمیق. نیچر، 542(7639)، 115-118.
  7. مارکوس، جی. (2018). یادگیری عمیق: یک ارزیابی انتقادی. arXiv:1801.00631.
  8. سرل، جی. (1980). ذهن‌ها، مغزها و برنامه‌ها. علوم رفتاری و مغزی، 3(3)، 417-424.
  9. تامسون، دبلیو. (1889). سخنرانی‌ها و خطابه‌های عمومی.
  10. آدامز، اس.، و همکاران. (2012). نقشه‌برداری از چشم‌انداز هوش عمومی مصنوعی در سطح انسانی. مجله هوش مصنوعی، 33(1)، 25-42.
  11. گورتزل، بی. (2014). هوش عمومی مصنوعی: مفهوم، وضعیت هنر و چشم‌انداز آینده. مجله هوش عمومی مصنوعی، 5(1)، 1-48.
  12. برینگسجورد، اس.، و شیمانسکی، بی. (2003). هوش مصنوعی چیست؟ هوش مصنوعی روانسنجی به عنوان یک پاسخ. آی‌جی‌سی‌ای‌آی.
  13. میخایلوفسکی، ن. (2020). شش آزمون برای هوش عمومی مصنوعی. arXiv:2005.05718.
  14. چولت، اف. (2019). در مورد اندازه‌گیری هوش. arXiv:1911.01547.
  15. بوستروم، ن. (2014). ابر هوش: مسیرها، خطرات، استراتژی‌ها. انتشارات دانشگاه آکسفورد.
  16. لیک، بی. ام.، و همکاران. (2017). ساخت ماشین‌هایی که مانند انسان‌ها یاد می‌گیرند و فکر می‌کنند. علوم رفتاری و مغزی، 40، e253.
  17. گودفلو، آی.، و همکاران. (2014). شبکه‌های مولد خصمانه. نورآی‌پی‌اس.
  18. یودکوسکی، ای. (2008). هوش مصنوعی به عنوان یک عامل مثبت و منفی در خطر جهانی. در خطرات فاجعه‌بار جهانی، انتشارات دانشگاه آکسفورد.