একটি মাত্র নিউরন বড় ল্যাঙ্গুয়েজ মডেলের সুরক্ষা ব্যবস্থা ধসিয়ে দিতে সক্ষম

16:46, 12 মে

সম্পাদনা করেছেন: Aleksandr Lytviak

একটি মাত্র নিউরন বড় ল্যাঙ্গুয়েজ মডেলের সুরক্ষা ব্যবস্থা ধসিয়ে দিতে সক্ষম-1

নিরাপদ কৃত্রিম বুদ্ধিমত্তা তৈরির দৌড়ে একটি অপ্রত্যাশিত দুর্বলতা সামনে এসেছে: নিউরাল নেটওয়ার্কের একটি মাত্র কোষে সামান্য হস্তক্ষেপ করলেই পুরো সিস্টেমের সুরক্ষাকবচ বা বিন্যাস ব্যবস্থা ভেঙে পড়তে পারে।

হামিদ কাজমি, আতুসা চেগিনি এবং মারিয়া সাফি পরিচালিত গবেষণাটির শিরোনাম হলো: «A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models»।

গবেষকরা দেখিয়েছেন যে, বড় ল্যাঙ্গুয়েজ মডেলগুলোতে (LLM) থাকা নিরাপত্তা মেকানিজম বা প্রত্যাখাত হওয়ার (refusal) প্রক্রিয়াকে ফাঁকি দিতে মাত্র একটি নিউরনকে নিষ্ক্রিয় করা বা সক্রিয় করাই যথেষ্ট।এখানে মূলত দুই ধরনের নিউরন থাকে: রিফিউজাল নিউরন (যা ক্ষতিকর তথ্য প্রতিরোধ করে) এবং কনসেপ্ট নিউরন (যা ক্ষতিকর তথ্যকে সংকেতবদ্ধ করে)।একটি রিফিউজাল নিউরনকে নিষ্ক্রিয় করে দিলে মডেলটি খুব সহজেই ক্ষতিকর প্রশ্নের উত্তর দিতে পারে।একটি কনসেপ্ট নিউরনের ক্ষমতা বাড়িয়ে দিলে মডেলটি এমনকি নির্দোষ প্রম্পটের বিপরীতেও ক্ষতিকর উত্তর তৈরি করে।
এটি কোনো নতুন প্রশিক্ষণ বা বিশেষ প্রম্পট ছাড়াই কাজ করে—শুধুমাত্র মডেলের ভেতরে সুনির্দিষ্ট স্থানে হস্তক্ষেপ করার মাধ্যমেই তা সম্ভব।
১.৭ বিলিয়ন থেকে ৭০ বিলিয়ন প্যারামিটার সম্পন্ন দুটি ভিন্ন ঘরানার সাতটি মডেলের ওপর এই পরীক্ষা চালানো হয়েছে।
গবেষকদের মতে, নিরাপত্তার বিষয়টি মডেলের ওজনের (weights) মধ্যে সমানভাবে বিন্যস্ত থাকে না, বরং নির্দিষ্ট কিছু নিউরনের ওপর নির্ভরশীল যেগুলো কোনো ক্ষতিকর আচরণ অনুমোদন বা প্রত্যাখ্যানের জন্য সরাসরি দায়ী।

এই ধরণের দুর্বলতা আধুনিক অ্যালাইনমেন্ট পদ্ধতির কাঠামোর ওপরই বড় প্রশ্ন তুলে দিয়েছে। কোম্পানিগুলো মাল্টি-লেভেল ফিল্টার এবং মানুষের নজরদারিতে মিলিয়ন মিলিয়ন ডলার বিনিয়োগ করলেও চূড়ান্ত ফলাফল বেশ ভঙ্গুর হিসেবেই দেখা দিচ্ছে। এক্ষেত্রে ডেভেলপারদের উদ্দেশ্য স্পষ্ট: তারা দ্রুত পণ্য বাজারে আনতে চান, আর প্রতিটি প্যারামিটার গভীরভাবে পরীক্ষা করতে যে সময় ও সম্পদের প্রয়োজন হয়, তার প্রায়ই অভাব থাকে।

সাধারণ ব্যবহারকারীদের জন্য এর অর্থ হলো, "নিরাপদ" চ্যাটবটের ওপর আস্থা রাখা হয়তো এক প্রকার বিভ্রম মাত্র। কোডের সামান্য পরিবর্তন বা এমনকি কোনো যান্ত্রিক ত্রুটির ফলেই মডেলটি ভিন্নভাবে আচরণ করতে শুরু করতে পারে। বিষয়টি অনেকটা সেতুর একটি দুর্বল রিভেটের মতো; যার কারণে নির্দিষ্ট চাপে গোটা কাঠামোটিই ধসে যেতে পারে।

বিশেষজ্ঞরা বলছেন, এমন পর্যবেক্ষণ প্রযুক্তি দুনিয়াকে আরও টেকসই সমাধান খুঁজতে বাধ্য করছে। প্রতিটি ক্ষতিকর শব্দ আলাদাভাবে আটকানোর চেষ্টার চেয়ে এমন মডেল তৈরি করা বেশি বুদ্ধিমানের কাজ হবে যা শুরু থেকেই প্রাসঙ্গিকতা এবং নিজের উত্তরের ফলাফল বুঝতে পারে। আপাতত শুধু 'জোড়াতালি' দেওয়ার যে প্রবণতা চলছে, তা আসলে নিয়ন্ত্রণের একটি সাময়িক ভ্রম ছাড়া আর কিছু নয়।

পরিশেষে, ল্যাঙ্গুয়েজ মডেল ব্যবহারের ক্ষেত্রে শুধুমাত্র তার নিজস্ব সীমাবদ্ধতার ওপর ভরসা না করে বাড়তি সুরক্ষা স্তর ব্যবহার করা জরুরি।

7 দৃশ্য

উৎসসমূহ

A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

এই বিষয়ে আরও নিবন্ধ পড়ুন:

24 মে

মানুষের প্রযুক্তি সর্বদা অস্তিত্বের সামগ্রিক রূপরেখাকেই প্রতিফলিত করে

21 মে

GPT-5.5 Instant: OpenAI-এর আধুনিক আর্কিটেকচার কীভাবে উত্তর তৈরির প্রক্রিয়াকে আরও নিখুঁত করছে

21 মে

এনভিডিয়ার আইসিং মডেল উন্মোচন: কৃত্রিম বুদ্ধিমত্তার কোয়ান্টাম ত্রুটি সংশোধনে পরিসংখ্যানগত পদার্থবিদ্যার প্রভাব

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।