আয়নায় আক্রমণকারী: যেভাবে 'অ্যাঙ্করড বাইপলিসি সেলফ-প্লে' এআই নিরাপত্তার অভ্যন্তরীণ সংহতি নষ্ট করছে

সম্পাদনা করেছেন: Aleksandr Lytviak

২০২৪ সালের মে মাসে arXiv-এ 'দ্য অ্যাটাকার ইন দ্য মিরর' (The Attacker in the Mirror) শিরোনামে একটি গবেষণাপত্র প্রকাশিত হয়, যেখানে গবেষকরা বৃহৎ ল্যাঙ্গুয়েজ মডেলের নিরাপত্তা ব্যবস্থা এড়িয়ে যাওয়ার একটি সম্পূর্ণ নতুন পদ্ধতির কথা তুলে ধরেন। কোনো বাহ্যিক আক্রমণ বা ক্ষতিকারক উদাহরণের মাধ্যমে মডেলকে পুনরায় প্রশিক্ষিত করার পরিবর্তে, গবেষকরা এখানে 'অ্যাঙ্করড বাইপলিসি সেলফ-প্লে' (anchored bipolicy self-play) পদ্ধতি ব্যবহার করেছেন—এটি এমন একটি কৌশল যেখানে একই মডেল একই সাথে আক্রমণকারী এবং রক্ষক হিসেবে কাজ করে, তবে এর মূল নীতিগুলো বজায় রাখার জন্য কিছু নির্দিষ্ট সীমাবদ্ধতা বা 'অ্যাঙ্কর' যুক্ত থাকে।

এই প্রক্রিয়াটি এমনভাবে কাজ করে যেখানে সেলফ-প্লে চলাকালীন মডেলটি দুই ধরনের গতিপথ তৈরি করে: একটি হলো যেখানে সে নিজের নিরাপত্তার নিয়মগুলো ভাঙার চেষ্টা করে এবং দ্বিতীয়টি হলো যেখানে সে সেই নিয়ম লঙ্ঘন প্রতিরোধ করার চেষ্টা করে। এখানে 'অ্যাঙ্কর' মূল নীতিকে নির্দিষ্ট করে রাখে যাতে মডেলটির কার্যকারিতা পুরোপুরি নষ্ট না হয়, তবে একই সাথে এটি মডেলের নিজস্ব যুক্তির মধ্যকার অভ্যন্তরীণ অসঙ্গতিগুলো খুঁজে বের করতে সাহায্য করে। এর ফলে কয়েক ধাপ অনুশীলনের পর, মডেলটি সফলভাবে এমন ক্ষতিকারক বিষয়বস্তু তৈরি করতে শুরু করে যা আগে স্বয়ংক্রিয়ভাবে আটকে দেওয়া হতো।

গবেষকরা দেখিয়েছেন যে, এমনকি RLHF এবং কনস্টিটিউশনাল এআই (Constitutional AI) দ্বারা প্রশিক্ষিত মডেলগুলোও তাদের নিজস্ব আক্রমণের মুখে দ্রুত নতি স্বীকার করে। যেসব বেঞ্চমার্কে আগে মডেলগুলো ৯৫ শতাংশের বেশি ক্ষেত্রে ক্ষতিকারক অনুরোধ প্রত্যাখ্যান করত, সেখানে ১০-১৫ রাউন্ড সেলফ-প্লে করার পর আক্রমণের সাফল্যের হার ৪০-৬০ শতাংশে পৌঁছে যায়। আশ্চর্যের বিষয় হলো, সাধারণ পরীক্ষার মাধ্যমে পরিমাপ করা বাহ্যিক নিরাপত্তা সূচকগুলো এতে প্রায় অপরিবর্তিতই থাকে।

এই গবেষণার পদ্ধতিটি আগের গবেষণাগুলোর চেয়ে আলাদা, কারণ এতে মডেলের অভ্যন্তরীণ প্যারামিটার বা ওয়েটস (weights) পরিবর্তন করার প্রয়োজন হয় না বা অতিরিক্ত কোনো প্রশিক্ষণের দরকার পড়ে না। মডেলের নিজস্ব প্রসঙ্গের (context) মধ্যেই পর্যায়ক্রমে বিভিন্ন ভূমিকা পালনের মাধ্যমে পুরো বিষয়টি ঘটে। এটি এই আক্রমণকে বিশেষভাবে বিপজ্জনক করে তোলে: এমনকি একজন সাধারণ ব্যবহারকারীও এটি প্রয়োগ করতে পারেন যদি মডেলটির কনটেক্সট যথেষ্ট দীর্ঘ হয় এবং এটি একই সাথে দুটি ভিন্ন নীতি বজায় রাখতে সক্ষম হয়।

'স্লিপার এজেন্ট' নিয়ে অ্যানথ্রোপিক-এর গবেষণা কিংবা 'অ্যাডভারসারিয়াল প্রম্পটিং'-এর মাধ্যমে রেড-টিমিংয়ের মতো আগের কাজগুলোর তুলনায় এই পদ্ধতিটি বাহ্যিক কোনো ট্রিগার খোঁজে না, বরং মডেলের নিজস্ব নীতি কাঠামোর দুর্বলতাকে কাজে লাগায়। যেখানে স্লিপার এজেন্টদের প্রশিক্ষণের সময় ডেটা কলুষিত (poisoning) করার প্রয়োজন হতো, সেখানে 'অ্যাঙ্করড বাইপলিসি সেলফ-প্লে' আগে থেকেই প্রশিক্ষিত মডেলে কাজ করে এবং এমন সব দুর্বলতা খুঁজে বের করে যা স্বাভাবিক ব্যবহারে সচরাচর প্রকাশ পায় না।

বিশেষজ্ঞ মহলের জন্য এর অর্থ হলো, স্ট্যাটিক টেস্ট এবং বাহ্যিক রেড-টিম দলের ওপর ভিত্তি করে বর্তমানে প্রচলিত নিরাপত্তা মূল্যায়ন পদ্ধতিগুলো আর যথেষ্ট নয়। একটি মডেল সব মানদণ্ডে নিরাপদ মনে হলেও এটি এমন আক্রমণের কাছে দুর্বল থেকে যেতে পারে যা সে নিজেই তৈরি করতে সক্ষম। এটি নিরাপত্তার প্রধান কৌশল হিসেবে 'পলিসি সেলফ-কনসিস্টেন্সি' বা নীতির অভ্যন্তরীণ সংহতির ওপর নির্ভর করা পদ্ধতিগুলোর নির্ভরযোগ্যতা নিয়ে বড় ধরনের প্রশ্ন তোলে।

3 দৃশ্য

উৎসসমূহ

  • arXiv:2605.08427

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।