কনভারসেশনাল এআই-এ কমনসেন্স রিজনিং: সর্বশেষ অগ্রগতির একটি সমীক্ষা

1. ভূমিকা

এই সমীক্ষা পত্রটি আধুনিক কনভারসেশনাল এআই সিস্টেমে কমনসেন্স রিজনিং সংহত করার গুরুত্বপূর্ণ চ্যালেঞ্জটি মোকাবেলা করে। যদিও বড় প্রি-ট্রেন্ড ভাষা মডেলগুলি (যেমন, BERT, GPT, T5) সিনট্যাক্স ও প্রসঙ্গ বোঝার ক্ষেত্রে অসাধারণ সাফল্য অর্জন করেছে, তারা মানুষের কাছে স্বাভাবিক বলে ধরে নেওয়া অন্তর্নিহিত, পার্থিব জ্ঞানের মৌলিক অভাব বহন করে। এই পত্রটি যুক্তি দেয় যে এই ফাঁকটি এআই-কে সত্যিকারের প্রাকৃতিক, সুসংগত ও বুদ্ধিমান সংলাপে জড়িত হতে বাধা দেওয়ার একটি প্রাথমিক বাধা। জর্জিয়া টেকের ক্রিস্টোফার রিচার্ডসন ও ল্যারি হেক তাদের কাজকে বর্তমান পরিস্থিতির—পদ্ধতি, ডেটাসেট ও মূল্যায়নের—একটি প্রয়োজনীয় মানচিত্র হিসেবে উপস্থাপন করেছেন, যাতে এই নবীন কিন্তু গুরুত্বপূর্ণ ক্ষেত্রে ভবিষ্যতের গবেষণাকে নির্দেশনা দেওয়া যায়।

2. কনভারসেশনাল এআই সমস্যায় কমনসেন্স রিজনিং

পত্রটি নির্দিষ্ট সংলাপমূলক কাজগুলির রূপরেখা দেয় যেখানে কমনসেন্সের ব্যর্থতা সবচেয়ে স্পষ্ট।

2.1 সংলাপের সংগতি ও প্রাসঙ্গিকতা

একাধিক পালার উপর যৌক্তিকভাবে সামঞ্জস্যপূর্ণ ও বিষয়গতভাবে প্রাসঙ্গিক সংলাপ বজায় রাখা। কমনসেন্স ছাড়া, মডেলগুলি এমন প্রতিক্রিয়া তৈরি করে যা ব্যাকরণগতভাবে সঠিক কিন্তু শব্দার্থগতভাবে অযৌক্তিক বা অপ্রাসঙ্গিক।

2.2 প্রশ্নোত্তর ও কাজ সম্পাদন

সেসব প্রশ্নের উত্তর দেওয়া বা নির্দেশনা সম্পন্ন করা যার জন্য অপ্রকাশিত অনুমানের প্রয়োজন। উদাহরণস্বরূপ, "কেটলি ফুটাও" বোঝার অর্থ পরবর্তী ধাপটি "পানি ঢালো", এমনকি যদি তা স্পষ্টভাবে বলা না থাকে।

2.3 সাধারণ আলাপচারিতা ও সামাজিক মিথস্ক্রিয়া

রসবোধ, ব্যঙ্গ, সহানুভূতি ও সামাজিক রীতিনীতি বোঝা। এর জন্য মানুষের মনস্তত্ত্ব ও সামাজিক রীতিনীতির একটি গভীর মডেল প্রয়োজন, যা বর্তমান মডেলগুলি মূলত পরিসংখ্যানগতভাবে অনুমান করে বোঝে না।

3. কমনসেন্স সংহতকরণের পদ্ধতি

সমীক্ষাটি সাহিত্যে অনুসন্ধান করা প্রাথমিক প্রযুক্তিগত পদ্ধতিগুলিকে শ্রেণীবদ্ধ করে।

3.1 মডেল ফাইন-টিউনিং

কমনসেন্স জ্ঞানে সমৃদ্ধ ডেটাসেটে (যেমন, ATOMIC, SocialIQA) বড় ভাষা মডেলগুলির (LLM) আরও প্রশিক্ষণ দেওয়া। এই পদ্ধতির লক্ষ্য কমনসেন্সকে অন্তর্নিহিতভাবে মডেলের প্যারামিটারে বেক করা।

3.2 নলেজ-গ্রাফ গ্রাউন্ডিং

মডেলটিকে ConceptNet বা ATOMIC-এর মতো কাঠামোগত জ্ঞান ভাণ্ডারের সাথে স্পষ্টভাবে সংযুক্ত করা। অনুমানের সময় মডেলটি এই গ্রাফগুলি থেকে তথ্য পুনরুদ্ধার করে বা তার উপর যুক্তি প্রয়োগ করে। একটি মূল উদাহরণ হল COMET (Bosselut et al., 2019), একটি ট্রান্সফরমার মডেল যা এই গ্রাফগুলি থেকে নতুন জ্ঞান টিপল তৈরি করতে প্রশিক্ষিত।

3.3 প্রাকৃতিক ভাষায় ব্যাখ্যা

মডেলগুলিকে শুধুমাত্র একটি উত্তর নয়, বরং প্রাকৃতিক ভাষায় একটি যুক্তি ট্রেস বা ব্যাখ্যাও তৈরি করতে প্রশিক্ষণ দেওয়া। এটি মডেলটিকে অন্তর্নিহিত ধাপগুলি স্পষ্টভাবে প্রকাশ করতে বাধ্য করে, সম্ভাব্যভাবে দৃঢ়তা উন্নত করে।

4. বেঞ্চমার্ক ও মূল্যায়ন মেট্রিক্স

4.1 সাধারণ ডেটাসেট

CommonsenseQA: কমনসেন্স প্রয়োজন এমন বহু-বিকল্প প্রশ্নোত্তর।
SocialIQA: সামাজিক ও আবেগগত কমনসেন্সের উপর ফোকাস করে।
PIQA: নির্দেশনা অনুসরণের জন্য শারীরিক কমনসেন্স।
DialogRE: সংলাপের মধ্যে সম্পর্ক সম্পর্কে যুক্তি।

4.2 মূল্যায়ন মেট্রিক্স

মানক নির্ভুলতার বাইরে, এই ক্ষেত্রে নিম্নলিখিত মেট্রিক্স ব্যবহার করা হয়:

মানব মূল্যায়ন: সংগতি, আকর্ষণীয়তা ও যুক্তিসঙ্গততার জন্য।
নলেজ-এফ১: গ্রাউন্ড-ট্রুথ জ্ঞান তথ্যের সাথে ওভারল্যাপ পরিমাপ করা।
রিজনিং চেইন কারেক্টনেস: উৎপন্ন ব্যাখ্যাগুলির যৌক্তিক সঠিকতা মূল্যায়ন করা।

5. সর্বাধুনিক মডেলগুলির প্রাথমিক পর্যবেক্ষণ

লেখকরা শীর্ষস্থানীয় ওপেন-ডায়ালগ মডেল, BlenderBot 3 এবং LaMDA-এর সমালোচনামূলক, হাতে-কলমে বিশ্লেষণ উপস্থাপন করেছেন। তাদের পর্যবেক্ষণগুলি অত্যন্ত নেতিবাচক: এই মডেলগুলির আকার ও পরিশীলিততা সত্ত্বেও, তারা প্রায়শই তুচ্ছ কমনসেন্স কাজে ব্যর্থ হয়। উদাহরণগুলির মধ্যে রয়েছে একটি সংলাপের মধ্যে পরস্পরবিরোধী বক্তব্য তৈরি করা বা মৌলিক শারীরিক সীমাবদ্ধতা বুঝতে ব্যর্থ হওয়া। এই অভিজ্ঞতামূলক প্রমাণটি কাগজের কেন্দ্রীয় থিসিসটিকে শক্তিশালীভাবে সমর্থন করে: বেঞ্চমার্ক পারফরম্যান্স উন্মুক্ত মিথস্ক্রিয়ায় দৃঢ়, ব্যবহারযোগ্য কমনসেন্সের সমতুল্য নয়।

6. মূল অন্তর্দৃষ্টি ও বিশ্লেষণ

মূল অন্তর্দৃষ্টি: কনভারসেশনাল এআই ক্ষেত্রটি একটি গুরুতর "কমনসেন্স ঋণ"-এ ভুগছে। আমরা দুর্বল, অন্তর্নিহিত ভিত্তির উপর আকাশচুম্বী ইমারত (বিশাল LLM) তৈরি করেছি। সমীক্ষাটি সঠিকভাবে চিহ্নিত করে যে মূল সমস্যাটি কৌশলের অভাব নয়, বরং আধুনিক NLP-এর পরিসংখ্যানগত, প্যাটার্ন-ম্যাচিং প্রকৃতি এবং মানুষের কমনসেন্সের প্রতীকী, কার্যকারণ ও উপমামূলক প্রকৃতির মধ্যে মৌলিক অসামঞ্জস্য। Chollet (2019)-এর মৌলিক কাজ "On the Measure of Intelligence"-এ উল্লিখিত হিসাবে, সত্যিকারের বুদ্ধিমত্তার জন্য নতুন পরিস্থিতিতে দক্ষতা অর্জন ও সাধারণীকরণ প্রয়োজন—যা বিশ্বের একটি সমৃদ্ধ মডেল ছাড়া অসম্ভব একটি কৃতিত্ব।

যৌক্তিক প্রবাহ: কাগজের কাঠামোটি যৌক্তিক ও প্ররোচনামূলক। এটি সমস্যা ও তার প্রকাশের সংজ্ঞা দেওয়া থেকে (ধারা 1-2), চেষ্টা করা প্রকৌশল সমাধানগুলির তালিকা তৈরি করা (ধারা 3), আমরা কীভাবে অগ্রগতি পরিমাপ করি তা পরীক্ষা করা (ধারা 4) এবং অবশেষে বর্তমান সমাধানগুলি অপর্যাপ্ত তার কংক্রিট প্রমাণ প্রদান করা (ধারা 5) পর্যন্ত এগিয়ে যায়। এই প্রবাহ বৈজ্ঞানিক পদ্ধতির প্রতিফলন ঘটায়: অনুমান (কমনসেন্স অনুপস্থিত), পরীক্ষা (বিভিন্ন সংহতকরণ পদ্ধতি), পরিমাপ (বেঞ্চমার্ক) এবং উপসংহার (সমাধান হয়নি)।

শক্তি ও ত্রুটি: কাগজের সর্বশ্রেষ্ঠ শক্তি হল SOTA মডেলগুলির কংক্রিট, সমালোচনামূলক মূল্যায়ন। এটি একাডেমিক বিমূর্ততা ছাড়িয়ে গিয়ে প্রকৃত ব্যর্থতার মোড দেখায়। সমীক্ষাগুলির সাধারণ ত্রুটি হিসাবে, এর প্রাথমিক ত্রুটি হল এর বর্ণনামূলক প্রকৃতি নির্দেশমূলক নয়। এটি অঞ্চলটি মানচিত্র করে কিন্তু কোন পথগুলি সবচেয়ে প্রতিশ্রুতিশীল সে সম্পর্কে সীমিত নির্দেশনা দেয়। এটি কার্যকারণ যুক্তির জন্য খাঁটি ট্রান্সফরমার-ভিত্তিক মডেলগুলির স্থাপত্যিক সীমাবদ্ধতাকে কম গুরুত্ব দেয়, যা MIT-এর CSAIL-এর মতো প্রতিষ্ঠানগুলির নিউরো-সিম্বলিক ইন্টিগ্রেশন গবেষণায় ব্যাপকভাবে জোর দেওয়া একটি বিষয়।

কার্যকরী অন্তর্দৃষ্টি: অনুশীলনকারী ও গবেষকদের জন্য, টেকঅ্যাওয়ে পরিষ্কার: কমনসেন্সকে শুধু আরেকটি ডেটাসেট হিসেবে বিবেচনা করা বন্ধ করুন যার উপর ফাইন-টিউন করতে হবে। ক্ষেত্রটির একটি প্যারাডাইম শিফট প্রয়োজন। 1) নিউরো-সিম্বলিক আর্কিটেকচারে বিনিয়োগ করুন: নিউরাল নেটওয়ার্কগুলিকে স্পষ্ট, নিয়ন্ত্রণযোগ্য জ্ঞান উপস্থাপনার সাথে একত্রিত করে হাইব্রিড মডেলগুলি (যেমন ডিফারেনশিয়েবল ইন্ডাকটিভ লজিক প্রোগ্রামিং-এর কাজ) একটি প্রয়োজনীয় দিক। 2) ভালো সিমুলেটেড এনভায়রনমেন্ট তৈরি করুন: রিইনফোর্সমেন্ট লার্নিংয়ের জন্য OpenAI-এর Gym-এর মতো, আমাদের সমৃদ্ধ, ইন্টারেক্টিভ সিমুলেটর প্রয়োজন (AllenAI-এর THOR-এর মতো প্ল্যাটফর্ম দ্বারা অনুপ্রাণিত) যেখানে এজেন্টগুলি শুধুমাত্র পাঠ্য নয়, বরং মূর্ত অভিজ্ঞতা ও পরিণতির মাধ্যমে কমনসেন্স শিখতে পারে। 3) মূল্যায়ন পুনর্বিবেচনা করুন: স্ট্যাটিক QA বেঞ্চমার্ক থেকে ডায়নামিক, ইন্টারেক্টিভ মূল্যায়নে যান যেখানে মডেলগুলিকে সময়ের সাথে সামঞ্জস্যপূর্ণ বিশ্ব বোঝার প্রদর্শন করতে হবে, ARC (অ্যাবস্ট্রাকশন অ্যান্ড রিজনিং কর্পাস) চ্যালেঞ্জের পিছনের নীতিগুলির অনুরূপ।

7. প্রযুক্তিগত বিবরণ

নলেজ-গ্রাফ গ্রাউন্ডিং পদ্ধতিতে প্রায়শই একটি রিট্রিভাল-অগমেন্টেড জেনারেশন ফ্রেমওয়ার্ক জড়িত থাকে। আনুষ্ঠানিকভাবে, একটি সংলাপ প্রসঙ্গ $C$ দেওয়া হলে, মডেলটি একটি নলেজ গ্রাফ $\mathcal{G}$ থেকে প্রাসঙ্গিক কমনসেন্স জ্ঞান টিপলগুলির একটি সেট $K = \{(h_i, r_i, t_i)\}$ পুনরুদ্ধার করে, যেখানে $h$ একটি হেড এনটিটি, $r$ একটি রিলেশন, এবং $t$ একটি টেইল এনটিটি। চূড়ান্ত প্রতিক্রিয়া $R$ উভয় $C$ এবং $K$-এর উপর কন্ডিশনিং করে তৈরি করা হয়:

$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$

COMET-এর মতো মডেলগুলি $(h, r)$ দেওয়া টেইল এনটিটি $t$ ভবিষ্যদ্বাণী করতে একটি ট্রান্সফরমার (যেমন, GPT-2) ফাইন-টিউন করে এটি বাস্তবায়ন করে, কার্যকরভাবে লেটেন্ট স্পেসে গ্রাফটি ট্রাভার্স করতে শেখে: $t = \text{COMET}(h, r)$।

8. পরীক্ষামূলক ফলাফল ও চার্ট বর্ণনা

যদিও PDF প্রিভিউতে স্পষ্ট চার্ট নেই, বর্ণিত প্রাথমিক পর্যবেক্ষণগুলি একটি উল্লেখযোগ্য পারফরম্যান্স ফাঁক বোঝায়। আমরা একটি কাল্পনিক বার চার্ট কল্পনা করতে পারি যা কমনসেন্স সংলাপ কাজের একটি স্যুটে (যেমন, সংগতি, শারীরিক যুক্তি, সামাজিক যুক্তি) মানুষের পারফরম্যান্স বনাম BlenderBot3 এবং LaMDA-এর তুলনা করে। Y-অক্ষ একটি স্কোর (0-100) উপস্থাপন করবে। চার্টটি দেখাবে:

মানুষের পারফরম্যান্স: সমস্ত কাজের বিভাগ জুড়ে ধারাবাহিকভাবে উচ্চ বার (~90-95)।
SOTA মডেল (BlenderBot3/LaMDA): বারগুলি উচ্চ ভ্যারিয়েন্স দেখায়—সম্ভবত সংগতিতে ~80 (যেখানে তারা প্যাটার্ন অনুকরণ করতে পারে), কিন্তু শারীরিক ও সামাজিক যুক্তির কাজগুলিতে যা গভীর বোঝার প্রয়োজন সেখানে তীব্রভাবে ~50-60-এ নেমে আসে। ত্রুটি বারগুলি বড় হবে, যা অসামঞ্জস্য নির্দেশ করে।
মূল টেকঅ্যাওয়ে: চাক্ষুষ ফাঁক, বিশেষ করে শারীরিক ও সামাজিক যুক্তিতে, কাগজের মৌলিক সীমাবদ্ধতার দাবিটিকে স্পষ্টভাবে চিত্রিত করবে, ক্রমবর্ধমান উন্নতির প্রয়োজন নয়।

9. বিশ্লেষণ কাঠামোর উদাহরণ

দৃশ্য: একটি সাধারণ আখ্যান বোঝার জন্য একটি সংলাপ এজেন্টের মূল্যায়ন।

সংলাপ প্রসঙ্গ: ব্যবহারকারী: "আমি এইমাত্র একটি নতুন কুকুরছানা পেয়েছি! সে খুবই শক্তিশালী। আমি দরজা খুলতে গিয়ে তাকে আমার প্রিয় জুতো নিয়ে লিভিং রুমে রেখে এসেছি।"

এজেন্ট প্রতিক্রিয়া A (কমনসেন্সের অভাব): "সুন্দর। আপনার জুতো কোন রঙের?"

এজেন্ট প্রতিক্রিয়া B (কমনসেন্স সহ): "ওহ না, আপনি হয়তো সেই জুতোগুলো পরীক্ষা করতে চাইবেন! কুকুরছানারা চিবাতে ভালোবাসে।"

কাঠামো বিশ্লেষণ:

জ্ঞান পুনরুদ্ধার: মডেলটি কি (কুকুরছানা, IsCapableOf, চিবানো), (জুতো, IsMadeOf, চামড়া/কাপড়), (চিবানো, Causes, ক্ষতি) এর মতো টিপল অ্যাক্সেস করে?
কার্যকারণ যুক্তি: এটি কি এই তথ্যগুলিকে চেইন করতে পারে: নতুন কুকুরছানা + শক্তিশালী + অপ্রত্যক্ষিত + চিবানোর যোগ্য বস্তু → ক্ষতির উচ্চ সম্ভাবনা।
সামাজিক/ব্যবহারিক যুক্তি: এটি কি ব্যবহারকারীর অপ্রকাশিত উদ্বেগ (জুতো নিয়ে চিন্তা) অনুমান করে এবং একটি প্রাসঙ্গিক, সহানুভূতিশীল সতর্কতা তৈরি করে?

প্রতিক্রিয়া A তিনটিতেই ব্যর্থ। প্রতিক্রিয়া B এই অন্তর্নিহিত কাঠামোর সফল প্রয়োগ প্রদর্শন করে। বর্তমান SOTA মডেলগুলি একটি উল্লেখযোগ্য শতাংশ সময় প্রতিক্রিয়া A তৈরি করবে।

10. ভবিষ্যতের প্রয়োগ ও দিকনির্দেশনা

কমনসেন্স রিজনিং সমাধান করা রূপান্তরকারী প্রয়োগগুলির দ্বার উন্মোচন করবে:

সত্যিকারের ব্যক্তিগত এআই সহকারী: এজেন্টগুলি যা সক্রিয়ভাবে জটিল কাজগুলি পরিচালনা করতে পারে ("আমার সময়সূচি, ডায়েটারি লক্ষ্য এবং ফ্রিজে কী আছে তা বিবেচনা করে সপ্তাহের জন্য মুদি অর্ডার করুন")।
উন্নত শিক্ষাগত টিউটর: সিস্টেমগুলি যা একজন শিক্ষার্থীর মানসিক অবস্থা মডেলিং করে এবং সক্রেটিক ব্যাখ্যা তৈরি করে তাদের ভুল বোঝাবুঝি নির্ণয় করতে পারে।
মানসিক স্বাস্থ্য সঙ্গী: সামাজিক ও মনস্তাত্ত্বিক রীতিনীতি বোঝার মাধ্যমে সূক্ষ্ম মানসিক সমর্থন ও সংকট সনাক্তকরণে সক্ষম চ্যাটবট।
ভার্চুয়াল বিশ্বে স্বায়ত্তশাসিত এজেন্ট: গেম বা মেটাভার্সে NPCগুলি যা বিশ্বাসযোগ্য উদ্দেশ্য, দীর্ঘমেয়াদী লক্ষ্য এবং তাদের পরিবেশ বোঝার সাথে আচরণ করে।
গবেষণা দিক: ভবিষ্যত মূর্ত, মাল্টিমোডাল লার্নিং (ভিডিও, অডিও ও শারীরিক মিথস্ক্রিয়া থেকে শেখা), কার্যকারণ বিশ্ব মডেল যা কাউন্টারফ্যাকচুয়াল রিজনিংয়ের অনুমতি দেয় এবং বৃহৎ-স্কেল, কিউরেটেড কমনসেন্স নলেজ গ্রাফ এর উপর নির্ভর করে যা COMET-এর মতো এআই সিস্টেম দ্বারা গতিশীলভাবে আপডেট করা হয়।

11. তথ্যসূত্র

Richardson, C., & Heck, L. (2023). Commonsense Reasoning for Conversational AI: A Survey of the State of the Art. Workshop on Knowledge Augmented Methods for NLP, AAAI 2023.
Bosselut, A., Rashkin, H., Sap, M., Malaviya, C., Celikyilmaz, A., & Choi, Y. (2019). COMET: Commonsense Transformers for Automatic Knowledge Graph Construction. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Speer, R., Chin, J., & Havasi, C. (2017). ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. Proceedings of the AAAI Conference on Artificial Intelligence.
Sap, M., Le Bras, R., Allaway, E., Bhagavatula, C., Lourie, N., Rashkin, H., ... & Choi, Y. (2019). ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning. Proceedings of the AAAI Conference on Artificial Intelligence.
Chollet, F. (2019). On the Measure of Intelligence. arXiv preprint arXiv:1911.01547.
Storks, S., Gao, Q., & Chai, J. Y. (2019). Recent Advances in Natural Language Inference: A Survey of Benchmarks, Resources, and Approaches. arXiv preprint arXiv:1904.01172.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems.