নিরাপদ কৃত্রিম বুদ্ধিমত্তা তৈরির দৌড়ে একটি অপ্রত্যাশিত দুর্বলতা সামনে এসেছে: নিউরাল নেটওয়ার্কের একটি মাত্র কোষে সামান্য হস্তক্ষেপ করলেই পুরো সিস্টেমের সুরক্ষাকবচ বা বিন্যাস ব্যবস্থা ভেঙে পড়তে পারে।
হামিদ কাজমি, আতুসা চেগিনি এবং মারিয়া সাফি পরিচালিত গবেষণাটির শিরোনাম হলো: «A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models»।
- গবেষকরা দেখিয়েছেন যে, বড় ল্যাঙ্গুয়েজ মডেলগুলোতে (LLM) থাকা নিরাপত্তা মেকানিজম বা প্রত্যাখাত হওয়ার (refusal) প্রক্রিয়াকে ফাঁকি দিতে মাত্র একটি নিউরনকে নিষ্ক্রিয় করা বা সক্রিয় করাই যথেষ্ট।এখানে মূলত দুই ধরনের নিউরন থাকে: রিফিউজাল নিউরন (যা ক্ষতিকর তথ্য প্রতিরোধ করে) এবং কনসেপ্ট নিউরন (যা ক্ষতিকর তথ্যকে সংকেতবদ্ধ করে)।একটি রিফিউজাল নিউরনকে নিষ্ক্রিয় করে দিলে মডেলটি খুব সহজেই ক্ষতিকর প্রশ্নের উত্তর দিতে পারে।একটি কনসেপ্ট নিউরনের ক্ষমতা বাড়িয়ে দিলে মডেলটি এমনকি নির্দোষ প্রম্পটের বিপরীতেও ক্ষতিকর উত্তর তৈরি করে।
- এটি কোনো নতুন প্রশিক্ষণ বা বিশেষ প্রম্পট ছাড়াই কাজ করে—শুধুমাত্র মডেলের ভেতরে সুনির্দিষ্ট স্থানে হস্তক্ষেপ করার মাধ্যমেই তা সম্ভব।
- ১.৭ বিলিয়ন থেকে ৭০ বিলিয়ন প্যারামিটার সম্পন্ন দুটি ভিন্ন ঘরানার সাতটি মডেলের ওপর এই পরীক্ষা চালানো হয়েছে।
- গবেষকদের মতে, নিরাপত্তার বিষয়টি মডেলের ওজনের (weights) মধ্যে সমানভাবে বিন্যস্ত থাকে না, বরং নির্দিষ্ট কিছু নিউরনের ওপর নির্ভরশীল যেগুলো কোনো ক্ষতিকর আচরণ অনুমোদন বা প্রত্যাখ্যানের জন্য সরাসরি দায়ী।
এই ধরণের দুর্বলতা আধুনিক অ্যালাইনমেন্ট পদ্ধতির কাঠামোর ওপরই বড় প্রশ্ন তুলে দিয়েছে। কোম্পানিগুলো মাল্টি-লেভেল ফিল্টার এবং মানুষের নজরদারিতে মিলিয়ন মিলিয়ন ডলার বিনিয়োগ করলেও চূড়ান্ত ফলাফল বেশ ভঙ্গুর হিসেবেই দেখা দিচ্ছে। এক্ষেত্রে ডেভেলপারদের উদ্দেশ্য স্পষ্ট: তারা দ্রুত পণ্য বাজারে আনতে চান, আর প্রতিটি প্যারামিটার গভীরভাবে পরীক্ষা করতে যে সময় ও সম্পদের প্রয়োজন হয়, তার প্রায়ই অভাব থাকে।
সাধারণ ব্যবহারকারীদের জন্য এর অর্থ হলো, "নিরাপদ" চ্যাটবটের ওপর আস্থা রাখা হয়তো এক প্রকার বিভ্রম মাত্র। কোডের সামান্য পরিবর্তন বা এমনকি কোনো যান্ত্রিক ত্রুটির ফলেই মডেলটি ভিন্নভাবে আচরণ করতে শুরু করতে পারে। বিষয়টি অনেকটা সেতুর একটি দুর্বল রিভেটের মতো; যার কারণে নির্দিষ্ট চাপে গোটা কাঠামোটিই ধসে যেতে পারে।
বিশেষজ্ঞরা বলছেন, এমন পর্যবেক্ষণ প্রযুক্তি দুনিয়াকে আরও টেকসই সমাধান খুঁজতে বাধ্য করছে। প্রতিটি ক্ষতিকর শব্দ আলাদাভাবে আটকানোর চেষ্টার চেয়ে এমন মডেল তৈরি করা বেশি বুদ্ধিমানের কাজ হবে যা শুরু থেকেই প্রাসঙ্গিকতা এবং নিজের উত্তরের ফলাফল বুঝতে পারে। আপাতত শুধু 'জোড়াতালি' দেওয়ার যে প্রবণতা চলছে, তা আসলে নিয়ন্ত্রণের একটি সাময়িক ভ্রম ছাড়া আর কিছু নয়।
পরিশেষে, ল্যাঙ্গুয়েজ মডেল ব্যবহারের ক্ষেত্রে শুধুমাত্র তার নিজস্ব সীমাবদ্ধতার ওপর ভরসা না করে বাড়তি সুরক্ষা স্তর ব্যবহার করা জরুরি।




