1. परिचय

यह सर्वेक्षण पत्र आधुनिक संवादी AI प्रणालियों में सामान्य ज्ञान तर्क को एकीकृत करने की महत्वपूर्ण चुनौती को संबोधित करता है। जबकि बड़े पूर्व-प्रशिक्षित भाषा मॉडल (जैसे, BERT, GPT, T5) ने वाक्यविन्यास और संदर्भ को समझने में उल्लेखनीय सफलता प्राप्त की है, उनमें मौलिक रूप से वह निहित, सांसारिक ज्ञान का अभाव है जिसे मनुष्य स्वाभाविक मानते हैं। पत्र तर्क देता है कि यह अंतर एक प्राथमिक बाधा है जो AI को वास्तव में प्राकृतिक, सुसंगत और बुद्धिमान संवाद में संलग्न होने से रोकती है। जॉर्जिया टेक के लेखक, क्रिस्टोफर रिचर्डसन और लैरी हेक, अपने कार्य को वर्तमान परिदृश्य - विधियों, डेटासेट और मूल्यांकन - का एक आवश्यक मानचित्रण के रूप में प्रस्तुत करते हैं, ताकि इस नवजात लेकिन महत्वपूर्ण क्षेत्र में भविष्य के शोध का मार्गदर्शन किया जा सके।

2. संवादी AI समस्याओं में सामान्य ज्ञान तर्क

पत्र विशिष्ट संवादी कार्यों को रेखांकित करता है जहाँ सामान्य ज्ञान की विफलता सबसे स्पष्ट है।

2.1 संवाद सुसंगतता और प्रासंगिकता

कई चरणों में तार्किक रूप से सुसंगत और विषयगत रूप से प्रासंगिक बातचीत बनाए रखना। सामान्य ज्ञान के बिना, मॉडल ऐसी प्रतिक्रियाएँ उत्पन्न करते हैं जो व्याकरणिक रूप से सही होती हैं लेकिन अर्थपूर्ण रूप से बेतुकी या अप्रासंगिक होती हैं।

2.2 प्रश्नोत्तर और कार्य पूर्णता

ऐसे प्रश्नों का उत्तर देना या निर्देश पूरे करना जिनमें अव्यक्त धारणाओं की आवश्यकता होती है। उदाहरण के लिए, यह समझना कि "केतली उबालो" का तात्पर्य अगला चरण "पानी डालो" है, भले ही स्पष्ट रूप से न कहा गया हो।

2.3 आकस्मिक चैट और सामाजिक अंतःक्रिया

हास्य, व्यंग्य, सहानुभूति और सामाजिक मानदंडों को समझना। इसके लिए मानव मनोविज्ञान और सामाजिक परंपराओं के गहन मॉडल की आवश्यकता होती है, जिसे वर्तमान मॉडल मुख्य रूप से सांख्यिकीय रूप से अनुमान लगाते हैं, समझते नहीं हैं।

3. सामान्य ज्ञान एकीकरण की विधियाँ

सर्वेक्षण साहित्य में खोजे गए प्राथमिक तकनीकी दृष्टिकोणों को वर्गीकृत करता है।

3.1 मॉडल फाइन-ट्यूनिंग

बड़े भाषा मॉडल (LLM) को सामान्य ज्ञान से समृद्ध डेटासेट (जैसे, ATOMIC, SocialIQA) पर आगे प्रशिक्षित करना। यह दृष्टिकोण सामान्य ज्ञान को मॉडल के पैरामीटरों में निहित रूप से समाहित करने का लक्ष्य रखता है।

3.2 ज्ञान-ग्राफ आधारितता

मॉडल को ConceptNet या ATOMIC जैसे संरचित ज्ञान आधारों से स्पष्ट रूप से जोड़ना। मॉडल अनुमान के दौरान इन ग्राफ़ों पर खोज या तर्क करता है। एक प्रमुख उदाहरण COMET (Bosselut et al., 2019) है, जो एक ट्रांसफॉर्मर मॉडल है जिसे इन ग्राफ़ों से नए ज्ञान ट्यूपल उत्पन्न करने के लिए प्रशिक्षित किया गया है।

3.3 प्राकृतिक भाषा स्पष्टीकरण

मॉडल को केवल उत्तर ही नहीं, बल्कि प्राकृतिक भाषा में तर्क का निशान या स्पष्टीकरण भी उत्पन्न करने के लिए प्रशिक्षित करना। यह मॉडल को निहित चरणों को स्पष्ट करने के लिए बाध्य करता है, संभवतः मजबूती में सुधार करता है।

4. बेंचमार्क और मूल्यांकन मापदंड

4.1 सामान्य डेटासेट

  • CommonsenseQA: सामान्य ज्ञान की आवश्यकता वाला बहुविकल्पीय प्रश्नोत्तर।
  • SocialIQA: सामाजिक और भावनात्मक सामान्य ज्ञान पर केंद्रित।
  • PIQA: निर्देशों का पालन करने के लिए भौतिक सामान्य ज्ञान।
  • DialogRE: संवादों के भीतर संबंधों के बारे में तर्क।

4.2 मूल्यांकन मापदंड

मानक सटीकता के अलावा, इस क्षेत्र में निम्नलिखित मापदंडों का उपयोग किया जाता है:

  • मानव मूल्यांकन: सुसंगतता, रोचकता और समझदारी के लिए।
  • ज्ञान-F1: वास्तविक ज्ञान तथ्यों के साथ ओवरलैप को मापना।
  • तर्क श्रृंखला शुद्धता: उत्पन्न स्पष्टीकरणों की तार्किक सुदृढ़ता का मूल्यांकन।

5. अत्याधुनिक मॉडलों पर प्रारंभिक अवलोकन

लेखक अग्रणी ओपन-डायलॉग मॉडल, BlenderBot 3 और LaMDA का गंभीर, व्यावहारिक विश्लेषण प्रस्तुत करते हैं। उनके अवलोकन निंदनीय हैं: इन मॉडलों के पैमाने और परिष्कार के बावजूद, वे अक्सर तुच्छ सामान्य ज्ञान कार्यों में विफल हो जाते हैं। उदाहरणों में एक ही बातचीत के भीतर विरोधाभासी कथन उत्पन्न करना या बुनियादी भौतिक बाधाओं को समझने में विफल होना शामिल है। यह अनुभवजन्य साक्ष्य पत्र के केंद्रीय थीसिस को शक्तिशाली रूप से रेखांकित करता है: बेंचमार्क प्रदर्शन खुले अंत वाली अंतःक्रिया में मजबूत, उपयोगी सामान्य ज्ञान के बराबर नहीं है।

6. मूल अंतर्दृष्टि और विश्लेषण

मूल अंतर्दृष्टि: संवादी AI क्षेत्र गंभीर "सामान्य ज्ञान ऋण" से पीड़ित है। हमने अस्थिर, निहित नींव पर गगनचुंबी इमारतें (विशाल LLM) बना ली हैं। सर्वेक्षण सही रूप से पहचानता है कि मूल समस्या तकनीकों की कमी नहीं है, बल्कि आधुनिक NLP की सांख्यिकीय, पैटर्न-मिलान प्रकृति और मानव सामान्य ज्ञान की प्रतीकात्मक, कारणात्मक और अनुरूप प्रकृति के बीच एक मौलिक बेमेलपन है। जैसा कि Chollet (2019) के मौलिक कार्य "On the Measure of Intelligence" में उल्लेख किया गया है, वास्तविक बुद्धिमत्ता के लिए नई स्थितियों में कौशल अधिग्रहण और सामान्यीकरण की आवश्यकता होती है - यह एक ऐसी उपलब्धि है जो दुनिया के एक समृद्ध मॉडल के बिना असंभव है।

तार्किक प्रवाह: पत्र की संरचना तार्किक और प्रेरक है। यह समस्या और उसके अभिव्यक्तियों को परिभाषित करने (अनुभाग 1-2) से लेकर, प्रयास किए गए इंजीनियरिंग समाधानों को सूचीबद्ध करने (अनुभाग 3), प्रगति को मापने के तरीके की जाँच करने (अनुभाग 4), और अंत में ठोस साक्ष्य प्रदान करने तक जाता है कि वर्तमान समाधान अपर्याप्त हैं (अनुभाग 5)। यह प्रवाह वैज्ञानिक पद्धति को दर्पण करता है: परिकल्पना (सामान्य ज्ञान गायब है), प्रयोग (विभिन्न एकीकरण विधियाँ), माप (बेंचमार्क), और निष्कर्ष (हल नहीं हुआ)।

शक्तियाँ और दोष: पत्र की सबसे बड़ी शक्ति SOTA मॉडलों का इसका ठोस, आलोचनात्मक मूल्यांकन है। यह शैक्षणिक अमूर्तताओं से आगे बढ़कर वास्तविक विफलता के तरीकों को दिखाता है। इसका प्राथमिक दोष, सर्वेक्षणों में आम है, इसका वर्णनात्मक होना है न कि निर्देशात्मक। यह क्षेत्र का मानचित्रण करता है लेकिन इस बात पर सीमित मार्गदर्शन प्रदान करता है कि कौन से रास्ते सबसे आशाजनक हैं। यह कारणात्मक तर्क के लिए शुद्ध ट्रांसफॉर्मर-आधारित मॉडलों की वास्तुशिल्पीय सीमाओं को कम करके आंकता है, जो MIT के CSAIL जैसे संस्थानों के न्यूरो-सिम्बॉलिक एकीकरण पर शोध में भारी जोर दिया गया एक बिंदु है।

कार्रवाई योग्य अंतर्दृष्टि: व्यवसायियों और शोधकर्ताओं के लिए, निष्कर्ष स्पष्ट है: सामान्य ज्ञान को केवल एक और डेटासेट के रूप में मत समझो जिस पर फाइन-ट्यून किया जाए। इस क्षेत्र को एक प्रतिमान बदलाव की आवश्यकता है। 1) न्यूरो-सिम्बॉलिक आर्किटेक्चर में निवेश करें: हाइब्रिड मॉडल जो तंत्रिका नेटवर्क को स्पष्ट, हेरफेर योग्य ज्ञान प्रतिनिधित्व (जैसे Differentiable Inductive Logic Programming पर कार्य) के साथ जोड़ते हैं, एक आवश्यक दिशा हैं। 2) बेहतर सिम्युलेटेड वातावरण विकसित करें: रीइन्फोर्समेंट लर्निंग के लिए OpenAI के Gym की तरह, हमें समृद्ध, इंटरैक्टिव सिम्युलेटर (AllenAI के THOR जैसे प्लेटफॉर्म से प्रेरित) की आवश्यकता है जहाँ एजेंट सिर्फ पाठ से नहीं, बल्कि अवतारित अनुभव और परिणाम के माध्यम से सामान्य ज्ञान सीख सकें। 3) मूल्यांकन पर पुनर्विचार करें: स्थिर QA बेंचमार्क से गतिशील, इंटरैक्टिव मूल्यांकन की ओर बढ़ें जहाँ मॉडलों को समय के साथ सुसंगत विश्व समझ प्रदर्शित करनी होगी, जो ARC (Abstraction and Reasoning Corpus) चुनौती के पीछे के सिद्धांतों के समान है।

7. तकनीकी विवरण

ज्ञान-ग्राफ आधारितता दृष्टिकोण में अक्सर एक पुनर्प्राप्ति-वर्धित जनन ढाँचा शामिल होता है। औपचारिक रूप से, एक संवाद संदर्भ $C$ दिया गया है, मॉडल एक ज्ञान ग्राफ $\mathcal{G}$ से प्रासंगिक सामान्य ज्ञान ट्यूपल $K = \{(h_i, r_i, t_i)\}$ का एक सेट पुनर्प्राप्त करता है, जहाँ $h$ एक हेड इकाई है, $r$ एक संबंध है, और $t$ एक टेल इकाई है। अंतिम प्रतिक्रिया $R$ $C$ और $K$ दोनों पर शर्त लगाकर उत्पन्न की जाती है:

$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$

COMET जैसे मॉडल $(h, r)$ दिए जाने पर टेल इकाई $t$ की भविष्यवाणी करने के लिए एक ट्रांसफॉर्मर (जैसे, GPT-2) को फाइन-ट्यून करके इसे लागू करते हैं, जिससे ग्राफ़ को एक अव्यक्त स्थान में पार करना सीखा जाता है: $t = \text{COMET}(h, r)$।

8. प्रायोगिक परिणाम और चार्ट विवरण

हालांकि PDF पूर्वावलोकन में स्पष्ट चार्ट नहीं हैं, वर्णित प्रारंभिक अवलोकन एक महत्वपूर्ण प्रदर्शन अंतर का संकेत देते हैं। हम एक काल्पनिक बार चार्ट की कल्पना कर सकते हैं जो सामान्य ज्ञान संवाद कार्यों (जैसे, सुसंगतता, भौतिक तर्क, सामाजिक तर्क) के एक सूट पर मानव प्रदर्शन बनाम BlenderBot3 और LaMDA की तुलना करता है। Y-अक्ष एक स्कोर (0-100) का प्रतिनिधित्व करेगा। चार्ट दिखाएगा:

  • मानव प्रदर्शन: सभी कार्य श्रेणियों में लगातार उच्च बार (~90-95)।
  • SOTA मॉडल (BlenderBot3/LaMDA): बार उच्च विचरण दिखाते हैं - शायद सुसंगतता पर ~80 (जहाँ वे पैटर्न की नकल कर सकते हैं), लेकिन भौतिक और सामाजिक तर्क कार्यों पर तेजी से ~50-60 तक गिर जाते हैं जिनके लिए गहरी समझ की आवश्यकता होती है। त्रुटि बार बड़े होंगे, जो असंगति का संकेत देते हैं।
  • मुख्य निष्कर्ष: दृश्य अंतर, विशेष रूप से भौतिक और सामाजिक तर्क में, पत्र के मौलिक सीमा के दावे को स्पष्ट रूप से दर्शाएगा, न कि वृद्धिशील सुधार की आवश्यकता।

9. विश्लेषण ढाँचा उदाहरण

परिदृश्य: एक सरल कथा को समझने के लिए एक संवादी एजेंट का मूल्यांकन।

संवाद संदर्भ: उपयोगकर्ता: "मुझे अभी एक नया पिल्ला मिला है! वह बहुत ऊर्जावान है। मैंने दरवाज़ा खोलने के लिए जाते समय उसे अपने पसंदीदा जूतों के साथ लिविंग रूम में छोड़ दिया।"

एजेंट प्रतिक्रिया A (सामान्य ज्ञान की कमी): "यह अच्छा है। आपके जूते किस रंग के हैं?"

एजेंट प्रतिक्रिया B (सामान्य ज्ञान के साथ): "अरे नहीं, आपको उन जूतों की जाँच करनी चाहिए! पिल्ले चबाना पसंद करते हैं।"

ढाँचा विश्लेषण:

  1. ज्ञान पुनर्प्राप्ति: क्या मॉडल (puppy, IsCapableOf, chew), (shoe, IsMadeOf, leather/ fabric), (chew, Causes, damage) जैसे ट्यूपल तक पहुँचता है?
  2. कारणात्मक तर्क: क्या यह इन तथ्यों को जोड़ सकता है: नया पिल्ला + ऊर्जावान + बिना देखरेख + चबाने योग्य वस्तु → क्षति की उच्च संभावना।
  3. सामाजिक/व्यावहारिक तर्क: क्या यह उपयोगकर्ता की अव्यक्त चिंता (जूतों की चिंता) का अनुमान लगाता है और एक प्रासंगिक, सहानुभूतिपूर्ण चेतावनी उत्पन्न करता है?
प्रतिक्रिया A तीनों में विफल रहती है। प्रतिक्रिया B इस निहित ढाँचे के सफल अनुप्रयोग का प्रदर्शन करती है। वर्तमान SOTA मॉडल एक गैर-तुच्छ प्रतिशत समय में प्रतिक्रिया A उत्पन्न करेंगे।

10. भविष्य के अनुप्रयोग और दिशाएँ

सामान्य ज्ञान तर्क को हल करने से परिवर्तनकारी अनुप्रयोग खुल जाएँगे:

  • वास्तविक व्यक्तिगत AI सहायक: एजेंट जो जटिल कार्यों को सक्रिय रूप से प्रबंधित कर सकते हैं ("मेरे कार्यक्रम, आहार लक्ष्यों और फ्रिज में पहले से क्या है, इस पर विचार करते हुए सप्ताह के लिए किराने का सामान ऑर्डर करें")।
  • उन्नत शैक्षिक ट्यूटर: ऐसी प्रणालियाँ जो छात्र की मानसिक स्थिति को मॉडल करके और सॉक्रेटिक स्पष्टीकरण उत्पन्न करके उसकी गलतफहमी का निदान कर सकती हैं।
  • मानसिक स्वास्थ्य साथी: चैटबॉट जो सामाजिक और मनोवैज्ञानिक मानदंडों को समझकर सूक्ष्म भावनात्मक समर्थन और संकट का पता लगाने में सक्षम हैं।
  • आभासी दुनिया में स्वायत्त एजेंट: खेलों या मेटावर्स में NPC जो विश्वसनीय उद्देश्यों, दीर्घकालिक लक्ष्यों और अपने पर्यावरण की समझ के साथ व्यवहार करते हैं।
  • शोध दिशा: भविष्य अवतारित, बहुमॉडल सीखने (वीडियो, ऑडियो और भौतिक अंतःक्रिया से सीखना), कारणात्मक विश्व मॉडल जो प्रतिघाती तर्क की अनुमति देते हैं, और बड़े पैमाने पर, क्यूरेटेड सामान्य ज्ञान ज्ञान ग्राफ़ में निहित है जो COMET जैसी AI प्रणालियों द्वारा गतिशील रूप से अद्यतन किए जाते हैं।

11. संदर्भ

  1. Richardson, C., & Heck, L. (2023). Commonsense Reasoning for Conversational AI: A Survey of the State of the Art. Workshop on Knowledge Augmented Methods for NLP, AAAI 2023.
  2. Bosselut, A., Rashkin, H., Sap, M., Malaviya, C., Celikyilmaz, A., & Choi, Y. (2019). COMET: Commonsense Transformers for Automatic Knowledge Graph Construction. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
  3. Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. Proceedings of the AAAI Conference on Artificial Intelligence.
  4. Sap, M., Le Bras, R., Allaway, E., Bhagavatula, C., Lourie, N., Rashkin, H., ... & Choi, Y. (2019). ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning. Proceedings of the AAAI Conference on Artificial Intelligence.
  5. Chollet, F. (2019). On the Measure of Intelligence. arXiv preprint arXiv:1911.01547.
  6. Storks, S., Gao, Q., & Chai, J. Y. (2019). Recent Advances in Natural Language Inference: A Survey of Benchmarks, Resources, and Approaches. arXiv preprint arXiv:1904.01172.
  7. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems.