2.1 সংলাপের সংগতি ও প্রাসঙ্গিকতা
একাধিক পালার উপর যৌক্তিকভাবে সামঞ্জস্যপূর্ণ ও বিষয়গতভাবে প্রাসঙ্গিক সংলাপ বজায় রাখা। কমনসেন্স ছাড়া, মডেলগুলি এমন প্রতিক্রিয়া তৈরি করে যা ব্যাকরণগতভাবে সঠিক কিন্তু শব্দার্থগতভাবে অযৌক্তিক বা অপ্রাসঙ্গিক।
এই সমীক্ষা পত্রটি আধুনিক কনভারসেশনাল এআই সিস্টেমে কমনসেন্স রিজনিং সংহত করার গুরুত্বপূর্ণ চ্যালেঞ্জটি মোকাবেলা করে। যদিও বড় প্রি-ট্রেন্ড ভাষা মডেলগুলি (যেমন, BERT, GPT, T5) সিনট্যাক্স ও প্রসঙ্গ বোঝার ক্ষেত্রে অসাধারণ সাফল্য অর্জন করেছে, তারা মানুষের কাছে স্বাভাবিক বলে ধরে নেওয়া অন্তর্নিহিত, পার্থিব জ্ঞানের মৌলিক অভাব বহন করে। এই পত্রটি যুক্তি দেয় যে এই ফাঁকটি এআই-কে সত্যিকারের প্রাকৃতিক, সুসংগত ও বুদ্ধিমান সংলাপে জড়িত হতে বাধা দেওয়ার একটি প্রাথমিক বাধা। জর্জিয়া টেকের ক্রিস্টোফার রিচার্ডসন ও ল্যারি হেক তাদের কাজকে বর্তমান পরিস্থিতির—পদ্ধতি, ডেটাসেট ও মূল্যায়নের—একটি প্রয়োজনীয় মানচিত্র হিসেবে উপস্থাপন করেছেন, যাতে এই নবীন কিন্তু গুরুত্বপূর্ণ ক্ষেত্রে ভবিষ্যতের গবেষণাকে নির্দেশনা দেওয়া যায়।
পত্রটি নির্দিষ্ট সংলাপমূলক কাজগুলির রূপরেখা দেয় যেখানে কমনসেন্সের ব্যর্থতা সবচেয়ে স্পষ্ট।
একাধিক পালার উপর যৌক্তিকভাবে সামঞ্জস্যপূর্ণ ও বিষয়গতভাবে প্রাসঙ্গিক সংলাপ বজায় রাখা। কমনসেন্স ছাড়া, মডেলগুলি এমন প্রতিক্রিয়া তৈরি করে যা ব্যাকরণগতভাবে সঠিক কিন্তু শব্দার্থগতভাবে অযৌক্তিক বা অপ্রাসঙ্গিক।
সেসব প্রশ্নের উত্তর দেওয়া বা নির্দেশনা সম্পন্ন করা যার জন্য অপ্রকাশিত অনুমানের প্রয়োজন। উদাহরণস্বরূপ, "কেটলি ফুটাও" বোঝার অর্থ পরবর্তী ধাপটি "পানি ঢালো", এমনকি যদি তা স্পষ্টভাবে বলা না থাকে।
রসবোধ, ব্যঙ্গ, সহানুভূতি ও সামাজিক রীতিনীতি বোঝা। এর জন্য মানুষের মনস্তত্ত্ব ও সামাজিক রীতিনীতির একটি গভীর মডেল প্রয়োজন, যা বর্তমান মডেলগুলি মূলত পরিসংখ্যানগতভাবে অনুমান করে বোঝে না।
সমীক্ষাটি সাহিত্যে অনুসন্ধান করা প্রাথমিক প্রযুক্তিগত পদ্ধতিগুলিকে শ্রেণীবদ্ধ করে।
কমনসেন্স জ্ঞানে সমৃদ্ধ ডেটাসেটে (যেমন, ATOMIC, SocialIQA) বড় ভাষা মডেলগুলির (LLM) আরও প্রশিক্ষণ দেওয়া। এই পদ্ধতির লক্ষ্য কমনসেন্সকে অন্তর্নিহিতভাবে মডেলের প্যারামিটারে বেক করা।
মডেলটিকে ConceptNet বা ATOMIC-এর মতো কাঠামোগত জ্ঞান ভাণ্ডারের সাথে স্পষ্টভাবে সংযুক্ত করা। অনুমানের সময় মডেলটি এই গ্রাফগুলি থেকে তথ্য পুনরুদ্ধার করে বা তার উপর যুক্তি প্রয়োগ করে। একটি মূল উদাহরণ হল COMET (Bosselut et al., 2019), একটি ট্রান্সফরমার মডেল যা এই গ্রাফগুলি থেকে নতুন জ্ঞান টিপল তৈরি করতে প্রশিক্ষিত।
মডেলগুলিকে শুধুমাত্র একটি উত্তর নয়, বরং প্রাকৃতিক ভাষায় একটি যুক্তি ট্রেস বা ব্যাখ্যাও তৈরি করতে প্রশিক্ষণ দেওয়া। এটি মডেলটিকে অন্তর্নিহিত ধাপগুলি স্পষ্টভাবে প্রকাশ করতে বাধ্য করে, সম্ভাব্যভাবে দৃঢ়তা উন্নত করে।
মানক নির্ভুলতার বাইরে, এই ক্ষেত্রে নিম্নলিখিত মেট্রিক্স ব্যবহার করা হয়:
লেখকরা শীর্ষস্থানীয় ওপেন-ডায়ালগ মডেল, BlenderBot 3 এবং LaMDA-এর সমালোচনামূলক, হাতে-কলমে বিশ্লেষণ উপস্থাপন করেছেন। তাদের পর্যবেক্ষণগুলি অত্যন্ত নেতিবাচক: এই মডেলগুলির আকার ও পরিশীলিততা সত্ত্বেও, তারা প্রায়শই তুচ্ছ কমনসেন্স কাজে ব্যর্থ হয়। উদাহরণগুলির মধ্যে রয়েছে একটি সংলাপের মধ্যে পরস্পরবিরোধী বক্তব্য তৈরি করা বা মৌলিক শারীরিক সীমাবদ্ধতা বুঝতে ব্যর্থ হওয়া। এই অভিজ্ঞতামূলক প্রমাণটি কাগজের কেন্দ্রীয় থিসিসটিকে শক্তিশালীভাবে সমর্থন করে: বেঞ্চমার্ক পারফরম্যান্স উন্মুক্ত মিথস্ক্রিয়ায় দৃঢ়, ব্যবহারযোগ্য কমনসেন্সের সমতুল্য নয়।
মূল অন্তর্দৃষ্টি: কনভারসেশনাল এআই ক্ষেত্রটি একটি গুরুতর "কমনসেন্স ঋণ"-এ ভুগছে। আমরা দুর্বল, অন্তর্নিহিত ভিত্তির উপর আকাশচুম্বী ইমারত (বিশাল LLM) তৈরি করেছি। সমীক্ষাটি সঠিকভাবে চিহ্নিত করে যে মূল সমস্যাটি কৌশলের অভাব নয়, বরং আধুনিক NLP-এর পরিসংখ্যানগত, প্যাটার্ন-ম্যাচিং প্রকৃতি এবং মানুষের কমনসেন্সের প্রতীকী, কার্যকারণ ও উপমামূলক প্রকৃতির মধ্যে মৌলিক অসামঞ্জস্য। Chollet (2019)-এর মৌলিক কাজ "On the Measure of Intelligence"-এ উল্লিখিত হিসাবে, সত্যিকারের বুদ্ধিমত্তার জন্য নতুন পরিস্থিতিতে দক্ষতা অর্জন ও সাধারণীকরণ প্রয়োজন—যা বিশ্বের একটি সমৃদ্ধ মডেল ছাড়া অসম্ভব একটি কৃতিত্ব।
যৌক্তিক প্রবাহ: কাগজের কাঠামোটি যৌক্তিক ও প্ররোচনামূলক। এটি সমস্যা ও তার প্রকাশের সংজ্ঞা দেওয়া থেকে (ধারা 1-2), চেষ্টা করা প্রকৌশল সমাধানগুলির তালিকা তৈরি করা (ধারা 3), আমরা কীভাবে অগ্রগতি পরিমাপ করি তা পরীক্ষা করা (ধারা 4) এবং অবশেষে বর্তমান সমাধানগুলি অপর্যাপ্ত তার কংক্রিট প্রমাণ প্রদান করা (ধারা 5) পর্যন্ত এগিয়ে যায়। এই প্রবাহ বৈজ্ঞানিক পদ্ধতির প্রতিফলন ঘটায়: অনুমান (কমনসেন্স অনুপস্থিত), পরীক্ষা (বিভিন্ন সংহতকরণ পদ্ধতি), পরিমাপ (বেঞ্চমার্ক) এবং উপসংহার (সমাধান হয়নি)।
শক্তি ও ত্রুটি: কাগজের সর্বশ্রেষ্ঠ শক্তি হল SOTA মডেলগুলির কংক্রিট, সমালোচনামূলক মূল্যায়ন। এটি একাডেমিক বিমূর্ততা ছাড়িয়ে গিয়ে প্রকৃত ব্যর্থতার মোড দেখায়। সমীক্ষাগুলির সাধারণ ত্রুটি হিসাবে, এর প্রাথমিক ত্রুটি হল এর বর্ণনামূলক প্রকৃতি নির্দেশমূলক নয়। এটি অঞ্চলটি মানচিত্র করে কিন্তু কোন পথগুলি সবচেয়ে প্রতিশ্রুতিশীল সে সম্পর্কে সীমিত নির্দেশনা দেয়। এটি কার্যকারণ যুক্তির জন্য খাঁটি ট্রান্সফরমার-ভিত্তিক মডেলগুলির স্থাপত্যিক সীমাবদ্ধতাকে কম গুরুত্ব দেয়, যা MIT-এর CSAIL-এর মতো প্রতিষ্ঠানগুলির নিউরো-সিম্বলিক ইন্টিগ্রেশন গবেষণায় ব্যাপকভাবে জোর দেওয়া একটি বিষয়।
কার্যকরী অন্তর্দৃষ্টি: অনুশীলনকারী ও গবেষকদের জন্য, টেকঅ্যাওয়ে পরিষ্কার: কমনসেন্সকে শুধু আরেকটি ডেটাসেট হিসেবে বিবেচনা করা বন্ধ করুন যার উপর ফাইন-টিউন করতে হবে। ক্ষেত্রটির একটি প্যারাডাইম শিফট প্রয়োজন। 1) নিউরো-সিম্বলিক আর্কিটেকচারে বিনিয়োগ করুন: নিউরাল নেটওয়ার্কগুলিকে স্পষ্ট, নিয়ন্ত্রণযোগ্য জ্ঞান উপস্থাপনার সাথে একত্রিত করে হাইব্রিড মডেলগুলি (যেমন ডিফারেনশিয়েবল ইন্ডাকটিভ লজিক প্রোগ্রামিং-এর কাজ) একটি প্রয়োজনীয় দিক। 2) ভালো সিমুলেটেড এনভায়রনমেন্ট তৈরি করুন: রিইনফোর্সমেন্ট লার্নিংয়ের জন্য OpenAI-এর Gym-এর মতো, আমাদের সমৃদ্ধ, ইন্টারেক্টিভ সিমুলেটর প্রয়োজন (AllenAI-এর THOR-এর মতো প্ল্যাটফর্ম দ্বারা অনুপ্রাণিত) যেখানে এজেন্টগুলি শুধুমাত্র পাঠ্য নয়, বরং মূর্ত অভিজ্ঞতা ও পরিণতির মাধ্যমে কমনসেন্স শিখতে পারে। 3) মূল্যায়ন পুনর্বিবেচনা করুন: স্ট্যাটিক QA বেঞ্চমার্ক থেকে ডায়নামিক, ইন্টারেক্টিভ মূল্যায়নে যান যেখানে মডেলগুলিকে সময়ের সাথে সামঞ্জস্যপূর্ণ বিশ্ব বোঝার প্রদর্শন করতে হবে, ARC (অ্যাবস্ট্রাকশন অ্যান্ড রিজনিং কর্পাস) চ্যালেঞ্জের পিছনের নীতিগুলির অনুরূপ।
নলেজ-গ্রাফ গ্রাউন্ডিং পদ্ধতিতে প্রায়শই একটি রিট্রিভাল-অগমেন্টেড জেনারেশন ফ্রেমওয়ার্ক জড়িত থাকে। আনুষ্ঠানিকভাবে, একটি সংলাপ প্রসঙ্গ $C$ দেওয়া হলে, মডেলটি একটি নলেজ গ্রাফ $\mathcal{G}$ থেকে প্রাসঙ্গিক কমনসেন্স জ্ঞান টিপলগুলির একটি সেট $K = \{(h_i, r_i, t_i)\}$ পুনরুদ্ধার করে, যেখানে $h$ একটি হেড এনটিটি, $r$ একটি রিলেশন, এবং $t$ একটি টেইল এনটিটি। চূড়ান্ত প্রতিক্রিয়া $R$ উভয় $C$ এবং $K$-এর উপর কন্ডিশনিং করে তৈরি করা হয়:
$P(R | C) \approx \sum_{K} P_{\text{retrieve}}(K | C) \cdot P_{\text{generate}}(R | C, K)$
COMET-এর মতো মডেলগুলি $(h, r)$ দেওয়া টেইল এনটিটি $t$ ভবিষ্যদ্বাণী করতে একটি ট্রান্সফরমার (যেমন, GPT-2) ফাইন-টিউন করে এটি বাস্তবায়ন করে, কার্যকরভাবে লেটেন্ট স্পেসে গ্রাফটি ট্রাভার্স করতে শেখে: $t = \text{COMET}(h, r)$।
যদিও PDF প্রিভিউতে স্পষ্ট চার্ট নেই, বর্ণিত প্রাথমিক পর্যবেক্ষণগুলি একটি উল্লেখযোগ্য পারফরম্যান্স ফাঁক বোঝায়। আমরা একটি কাল্পনিক বার চার্ট কল্পনা করতে পারি যা কমনসেন্স সংলাপ কাজের একটি স্যুটে (যেমন, সংগতি, শারীরিক যুক্তি, সামাজিক যুক্তি) মানুষের পারফরম্যান্স বনাম BlenderBot3 এবং LaMDA-এর তুলনা করে। Y-অক্ষ একটি স্কোর (0-100) উপস্থাপন করবে। চার্টটি দেখাবে:
দৃশ্য: একটি সাধারণ আখ্যান বোঝার জন্য একটি সংলাপ এজেন্টের মূল্যায়ন।
সংলাপ প্রসঙ্গ: ব্যবহারকারী: "আমি এইমাত্র একটি নতুন কুকুরছানা পেয়েছি! সে খুবই শক্তিশালী। আমি দরজা খুলতে গিয়ে তাকে আমার প্রিয় জুতো নিয়ে লিভিং রুমে রেখে এসেছি।"
এজেন্ট প্রতিক্রিয়া A (কমনসেন্সের অভাব): "সুন্দর। আপনার জুতো কোন রঙের?"
এজেন্ট প্রতিক্রিয়া B (কমনসেন্স সহ): "ওহ না, আপনি হয়তো সেই জুতোগুলো পরীক্ষা করতে চাইবেন! কুকুরছানারা চিবাতে ভালোবাসে।"
কাঠামো বিশ্লেষণ:
কমনসেন্স রিজনিং সমাধান করা রূপান্তরকারী প্রয়োগগুলির দ্বার উন্মোচন করবে: