1. جدول المحتويات
- 2. مقدمة
- 3. الرؤية الأساسية: التحول النموذجي القياسي النفسي
- 4. التدفق المنطقي: من الذكاء الاصطناعي الضيق إلى الذكاء العام
- 5. نقاط القوة والعيوب: تقييم نقدي لاختبارات الذكاء العام الاصطناعي
- 6. رؤى قابلة للتنفيذ: اتجاهات مستقبلية
- 7. تفاصيل تقنية وصياغة رياضية
- 8. النتائج التجريبية وتحليل المعايير
- 9. إطار تحليلي: دراسة حالة لـ ARC
- 10. التطبيقات المستقبلية والنظرة المستقبلية
- 11. تحليل وتعليق أصلي
- 12. المراجع
2. مقدمة
تنتقد الورقة البحثية "الحالة للذكاء العام الاصطناعي القياسي النفسي" لمارك ماكفيرسون (جامعة بورنماوث، 2020) بشكل نقدي المعايير والاختبارات الحالية لقياس الذكاء العام الاصطناعي. يجادل المؤلف بأن أنظمة الذكاء الاصطناعي الحالية، على الرغم من تحقيقها أداءً خارقًا في المجالات الضيقة مثل لعبة غو وستاركرافت والتشخيص الطبي، تفتقر إلى القدرة على التكيف والتعميم التي يتمتع بها الذكاء البشري. الأطروحة الأساسية هي أن المناهج القياسية النفسية، ولا سيما مجموعة التجريد والاستدلال التي اقترحها شوليه، تقدم المسار الأكثر وعدًا لاكتشاف وقياس الذكاء العام الاصطناعي.
3. الرؤية الأساسية: التحول النموذجي القياسي النفسي
الرؤية الأساسية لهذه الورقة هي أن قياس الذكاء العام الاصطناعي يتطلب تحولًا نموذجيًا من المعايير الخاصة بالمهام إلى أطر القياس النفسي التي تقيم القدرات المعرفية العامة. يجادل المؤلف بأن معايير الذكاء الاصطناعي التقليدية (مثل لعب الألعاب وتصنيف الصور) غير كافية لأنها تقيس أداءً ضيقًا ومخصصًا لمجال معين بدلاً من الذكاء العام. يركز النهج القياسي النفسي، المستوحى من اختبارات الذكاء البشري، على قياس القدرة على حل المشكلات الجديدة عبر مجالات متنوعة دون تدريب خاص بمهمة معينة.
4. التدفق المنطقي: من الذكاء الاصطناعي الضيق إلى الذكاء العام
تتبع الورقة تقدمًا منطقيًا واضحًا:
- تحديد المشكلة: أنظمة الذكاء الاصطناعي الحالية ضيقة وهشة، وتفشل عندما تنحرف البيئات قليلاً عن ظروف التدريب.
- تعريف الذكاء العام الاصطناعي: يُعرَّف الذكاء العام بأنه القدرة على أداء المهام عبر مجالات عديدة، بما في ذلك تلك غير المعروفة وقت الإنشاء.
- مراجعة الاختبارات الحالية: يقيم المؤلف ستة اختبارات اقترحها ميخايلوفسكي (التفسير، وضع المشكلة، التفنيد، التنبؤ بالظاهرة الجديدة، إنشاء الأعمال، إنشاء النظرية) ومعيار ARC لشوليه.
- التقييم النقدي: يتم تقييم كل اختبار وفقًا لمعايير تشمل العمومية والموضوعية وقابلية التوسع ومقاومة التلاعب.
- التوصية: يتم تحديد المناهج القياسية النفسية، ولا سيما ARC، باعتبارها الاتجاه الأكثر وعدًا.
5. نقاط القوة والعيوب: تقييم نقدي لاختبارات الذكاء العام الاصطناعي
5.1 نقاط القوة في المناهج القياسية النفسية
- العمومية: تتطلب مهام ARC التفكير في أنماط مجردة، وليس معرفة خاصة بمجال معين.
- الموضوعية: يُقاس الأداء بالنجاح في مهام غير مرئية، مما يقلل من التحيز.
- قابلية التوسع: تحتوي مجموعة بيانات ARC على 800 مهمة، مما يسمح بتحليل إحصائي قوي.
5.2 العيوب والقيود
- اختبارات ميخايلوفسكي: اختبارات التفسير وإنشاء النظرية وإنشاء الأعمال هي اختبارات مركزية على الإنسان بشكل مفرط ويصعب أتمتتها بشكل موضوعي. تتطلب إبداعًا على المستوى البشري وتفاعلًا مع العالم الحقيقي، وهو ما قد لا يكون ضروريًا للذكاء العام الاصطناعي.
- قيود ARC: على الرغم من كونها واعدة، إلا أن ARC تركز بشكل أساسي على التفكير البصري وقد لا تلتقط أبعادًا أخرى للذكاء (مثل التفكير الاجتماعي أو اللغوي أو الفيزيائي).
- نقص الديناميكيات الزمنية: معظم الاختبارات ثابتة ولا تقيم التعلم بمرور الوقت أو التكيف مع البيئات المتغيرة.
6. رؤى قابلة للتنفيذ: اتجاهات مستقبلية
بناءً على التحليل، تقترح الورقة عدة اتجاهات قابلة للتنفيذ:
- تطوير معايير هجينة: الجمع بين المهام القياسية النفسية والبيئات التفاعلية الديناميكية لتقييم كل من التفكير والتكيف.
- دمج طرائق متعددة: توسيع ARC ليشمل مهام التفكير اللغوي والسمعي والفيزيائي.
- التركيز على التعميم التركيبي: تصميم مهام تتطلب الجمع بين المفاهيم المكتسبة بطرق جديدة، وهو جانب رئيسي من الذكاء البشري.
- اعتماد إعداد تقارير موحد: استخدام مقاييس القياس النفسي (مثل الموثوقية والصدق ونظرية استجابة الفقرة) لضمان أن تكون المعايير صارمة علميًا.
7. تفاصيل تقنية وصياغة رياضية
يمكن صياغة النهج القياسي النفسي لقياس الذكاء العام الاصطناعي باستخدام نظرية استجابة الفقرة. دع θ تمثل الذكاء العام الكامن للوكيل. يتم إعطاء احتمال حل المهمة i بشكل صحيح مع الصعوبة b_i والتمييز a_i بواسطة النموذج اللوجستي:
$$P(X_i = 1 | \theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$$
بالنسبة لمعيار ARC، تتكون كل مهمة من أزواج شبكات الإدخال والإخراج. يجب على الوكيل استنتاج التحويل الأساسي $f: \mathbb{Z}^{m \times n} \rightarrow \mathbb{Z}^{p \times q}$ من بضعة أمثلة وتطبيقه على إدخال جديد. مقياس الأداء هو الدقة في المهام المحجوزة، مرجحة بصعوبة المهمة.
8. النتائج التجريبية وتحليل المعايير
لا تقدم الورقة تجارب أصلية ولكنها تستعرض النتائج الحالية. تشمل النتائج الرئيسية من الأدبيات:
- الأداء البشري على ARC: يحقق البشر دقة تتراوح بين 80-90% تقريبًا في مهام ARC، مما يدل على جدوى المعيار.
- أداء الذكاء الاصطناعي: تحقق أنظمة الذكاء الاصطناعي الحديثة (اعتبارًا من عام 2020) دقة أقل من 30% على ARC، مما يسلط الضوء على الفجوة بين الذكاء الضيق والعام.
- المقارنة مع المعايير الأخرى: ARC أكثر تحديًا من اختبارات الذكاء التقليدية للذكاء الاصطناعي لأنه يتطلب تفكيرًا شبيهًا بالبرمجة بدلاً من مطابقة الأنماط.
الشكل 1: رسم بياني شريطي افتراضي يقارن أداء الإنسان مقابل الذكاء الاصطناعي في مهام ARC عبر مستويات الصعوبة (سهل، متوسط، صعب). يتفوق البشر باستمرار على الذكاء الاصطناعي، مع اتساع الفجوة في المهام الأكثر صعوبة.
9. إطار تحليلي: دراسة حالة لـ ARC
لتوضيح النهج القياسي النفسي، فكر في مهمة ARC حيث يكون الإدخال شبكة 3x3 تحتوي على خلايا ملونة، والإخراج هو شبكة 3x3 بنمط مختلف. يجب على الوكيل استنتاج القاعدة (على سبيل المثال، "قم بتدوير النمط 90 درجة في اتجاه عقارب الساعة") من مثالين وتطبيقها على إدخال ثالث.
مهمة مثال:
- الإدخال 1: [[0,1,0],[1,0,1],[0,1,0]] → الإخراج 1: [[0,1,0],[1,0,1],[0,1,0]] (لا تغيير، تناظر)
- الإدخال 2: [[1,0,0],[0,1,0],[0,0,1]] → الإخراج 2: [[0,0,1],[0,1,0],[1,0,0]] (قلب على طول القطر المضاد)
- إدخال الاختبار: [[0,0,1],[0,1,0],[1,0,0]] → الإخراج المتوقع: [[1,0,0],[0,1,0],[0,0,1]]
تتطلب هذه المهمة من الوكيل التعرف على قاعدة التحويل (القلب على طول القطر المضاد) وتطبيقها على نمط جديد. تكمن القيمة القياسية النفسية في حقيقة أن القاعدة مجردة وغير مرتبطة بأي مجال محدد.
10. التطبيقات المستقبلية والنظرة المستقبلية
للنهج القياسي النفسي للذكاء العام الاصطناعي العديد من التطبيقات الواعدة:
- سلامة الذكاء الاصطناعي: يمكن أن تساعد المعايير القياسية النفسية في اكتشاف الأعطال غير المتوقعة في أنظمة الذكاء الاصطناعي عن طريق اختبار التعميم على السيناريوهات الجديدة.
- التعاون بين الإنسان والذكاء الاصطناعي: يمكن أن يؤدي فهم الملف المعرفي للذكاء الاصطناعي (مثل نقاط القوة في التفكير البصري مقابل اللغوي) إلى تحسين العمل الجماعي مع البشر.
- الذكاء الاصطناعي التعليمي: يمكن لأطر القياس النفسي توجيه تطوير مدرسين يعملون بالذكاء الاصطناعي يتكيفون مع أنماط التعلم الفردية.
- علم الأعصاب: يمكن أن تؤدي مقارنة أداء الإنسان والذكاء الاصطناعي في المهام القياسية النفسية إلى إلقاء الضوء على الأساس العصبي للذكاء العام.
تشمل الاتجاهات المستقبلية دمج المعايير القياسية النفسية مع بيئات التعلم المعزز، وتطوير اختبارات ديناميكية تتكيف مع مستوى قدرة الوكيل، وإنشاء معايير متعددة الوسائط تقيم التفكير عبر الطرائق الحسية.
11. تحليل وتعليق أصلي
تقدم الورقة حجة مقنعة للمناهج القياسية النفسية للذكاء العام الاصطناعي، ولكن العديد من النقاط الحرجة تستحق التدقيق. أولاً، الاعتماد على الذكاء الشبيه بالبشري كمعيار ذهبي هو أمر مشكوك فيه فلسفيًا. كما جادل بوستروم (2014) في كتابه "الذكاء الفائق"، قد يُظهر الذكاء العام الاصطناعي أشكالًا من الذكاء تختلف نوعياً عن الإدراك البشري، مما يجعل المعايير المركزية على الإنسان مضللةً محتملة. ثانيًا، معيار ARC، على الرغم من أناقته، قد يكون ضيقًا جدًا. كما لاحظ ليك وآخرون (2017) في ورقتهم "بناء آلات تتعلم وتفكر مثل البشر"، فإن الذكاء البشري لا يشمل التفكير المجرد فحسب، بل يشمل أيضًا الفيزياء البديهية والإدراك الاجتماعي وفهم اللغة. يجب أن يشمل معيار الذكاء العام الحقيقي هذه الأبعاد. ثالثًا، تتجاهل الورقة إمكانات الاختبار العدائي. كما أظهر جودفيلو وآخرون (2014) في ورقة GAN الأصلية، يمكن للأمثلة العدائية أن تكشف عن نقاط ضعف أساسية في أنظمة الذكاء الاصطناعي تفوتها المعايير القياسية. يمكن أن يوفر دمج العناصر العدائية في الاختبارات القياسية النفسية تقييمًا أكثر قوة للتعميم. أخيرًا، تركيز الورقة على القياس بدلاً من البنية هو نقطة قوة، لكنه يخاطر بتجاهل مسألة كيفية بناء الذكاء العام الاصطناعي. كما يجادل يودكوفسكي (2008)، تتطلب مشكلة التوافق فهم الآليات الداخلية لأنظمة الذكاء الاصطناعي، وليس فقط سلوكها الخارجي. على الرغم من هذه القيود، توفر الورقة إطارًا قيمًا للتفكير في تقييم الذكاء العام الاصطناعي وتؤكد بحق على الحاجة إلى معايير صارمة وصالحة من الناحية القياسية النفسية.
12. المراجع
- McCarthy, J., et al. (1956). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
- Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
- Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.
- Krizhevsky, A., et al. (2012). ImageNet classification with deep convolutional neural networks. NeurIPS.
- Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
- Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.
- Marcus, G. (2018). Deep learning: A critical appraisal. arXiv:1801.00631.
- Searle, J. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
- Thomson, W. (1889). Popular Lectures and Addresses.
- Adams, S., et al. (2012). Mapping the landscape of human-level artificial general intelligence. AI Magazine, 33(1), 25-42.
- Goertzel, B. (2014). Artificial general intelligence: Concept, state of the art, and future prospects. Journal of Artificial General Intelligence, 5(1), 1-48.
- Bringsjord, S., & Schimanski, B. (2003). What is artificial intelligence? Psychometric AI as an answer. IJCAI.
- Mikhaylovskiy, N. (2020). Six tests for artificial general intelligence. arXiv:2005.05718.
- Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
- Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
- Lake, B. M., et al. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40, e253.
- Goodfellow, I., et al. (2014). Generative adversarial nets. NeurIPS.
- Yudkowsky, E. (2008). Artificial intelligence as a positive and negative factor in global risk. In Global Catastrophic Risks, Oxford University Press.