আয়নায় আক্রমণকারী: যেভাবে 'অ্যাঙ্করড বাইপলিসি সেলফ-প্লে' এআই নিরাপত্তার অভ্যন্তরীণ সংহতি নষ্ট করছে

17:16, 12 মে

সম্পাদনা করেছেন: Aleksandr Lytviak

২০২৪ সালের মে মাসে arXiv-এ 'দ্য অ্যাটাকার ইন দ্য মিরর' (The Attacker in the Mirror) শিরোনামে একটি গবেষণাপত্র প্রকাশিত হয়, যেখানে গবেষকরা বৃহৎ ল্যাঙ্গুয়েজ মডেলের নিরাপত্তা ব্যবস্থা এড়িয়ে যাওয়ার একটি সম্পূর্ণ নতুন পদ্ধতির কথা তুলে ধরেন। কোনো বাহ্যিক আক্রমণ বা ক্ষতিকারক উদাহরণের মাধ্যমে মডেলকে পুনরায় প্রশিক্ষিত করার পরিবর্তে, গবেষকরা এখানে 'অ্যাঙ্করড বাইপলিসি সেলফ-প্লে' (anchored bipolicy self-play) পদ্ধতি ব্যবহার করেছেন—এটি এমন একটি কৌশল যেখানে একই মডেল একই সাথে আক্রমণকারী এবং রক্ষক হিসেবে কাজ করে, তবে এর মূল নীতিগুলো বজায় রাখার জন্য কিছু নির্দিষ্ট সীমাবদ্ধতা বা 'অ্যাঙ্কর' যুক্ত থাকে।

এই প্রক্রিয়াটি এমনভাবে কাজ করে যেখানে সেলফ-প্লে চলাকালীন মডেলটি দুই ধরনের গতিপথ তৈরি করে: একটি হলো যেখানে সে নিজের নিরাপত্তার নিয়মগুলো ভাঙার চেষ্টা করে এবং দ্বিতীয়টি হলো যেখানে সে সেই নিয়ম লঙ্ঘন প্রতিরোধ করার চেষ্টা করে। এখানে 'অ্যাঙ্কর' মূল নীতিকে নির্দিষ্ট করে রাখে যাতে মডেলটির কার্যকারিতা পুরোপুরি নষ্ট না হয়, তবে একই সাথে এটি মডেলের নিজস্ব যুক্তির মধ্যকার অভ্যন্তরীণ অসঙ্গতিগুলো খুঁজে বের করতে সাহায্য করে। এর ফলে কয়েক ধাপ অনুশীলনের পর, মডেলটি সফলভাবে এমন ক্ষতিকারক বিষয়বস্তু তৈরি করতে শুরু করে যা আগে স্বয়ংক্রিয়ভাবে আটকে দেওয়া হতো।

গবেষকরা দেখিয়েছেন যে, এমনকি RLHF এবং কনস্টিটিউশনাল এআই (Constitutional AI) দ্বারা প্রশিক্ষিত মডেলগুলোও তাদের নিজস্ব আক্রমণের মুখে দ্রুত নতি স্বীকার করে। যেসব বেঞ্চমার্কে আগে মডেলগুলো ৯৫ শতাংশের বেশি ক্ষেত্রে ক্ষতিকারক অনুরোধ প্রত্যাখ্যান করত, সেখানে ১০-১৫ রাউন্ড সেলফ-প্লে করার পর আক্রমণের সাফল্যের হার ৪০-৬০ শতাংশে পৌঁছে যায়। আশ্চর্যের বিষয় হলো, সাধারণ পরীক্ষার মাধ্যমে পরিমাপ করা বাহ্যিক নিরাপত্তা সূচকগুলো এতে প্রায় অপরিবর্তিতই থাকে।

এই গবেষণার পদ্ধতিটি আগের গবেষণাগুলোর চেয়ে আলাদা, কারণ এতে মডেলের অভ্যন্তরীণ প্যারামিটার বা ওয়েটস (weights) পরিবর্তন করার প্রয়োজন হয় না বা অতিরিক্ত কোনো প্রশিক্ষণের দরকার পড়ে না। মডেলের নিজস্ব প্রসঙ্গের (context) মধ্যেই পর্যায়ক্রমে বিভিন্ন ভূমিকা পালনের মাধ্যমে পুরো বিষয়টি ঘটে। এটি এই আক্রমণকে বিশেষভাবে বিপজ্জনক করে তোলে: এমনকি একজন সাধারণ ব্যবহারকারীও এটি প্রয়োগ করতে পারেন যদি মডেলটির কনটেক্সট যথেষ্ট দীর্ঘ হয় এবং এটি একই সাথে দুটি ভিন্ন নীতি বজায় রাখতে সক্ষম হয়।

'স্লিপার এজেন্ট' নিয়ে অ্যানথ্রোপিক-এর গবেষণা কিংবা 'অ্যাডভারসারিয়াল প্রম্পটিং'-এর মাধ্যমে রেড-টিমিংয়ের মতো আগের কাজগুলোর তুলনায় এই পদ্ধতিটি বাহ্যিক কোনো ট্রিগার খোঁজে না, বরং মডেলের নিজস্ব নীতি কাঠামোর দুর্বলতাকে কাজে লাগায়। যেখানে স্লিপার এজেন্টদের প্রশিক্ষণের সময় ডেটা কলুষিত (poisoning) করার প্রয়োজন হতো, সেখানে 'অ্যাঙ্করড বাইপলিসি সেলফ-প্লে' আগে থেকেই প্রশিক্ষিত মডেলে কাজ করে এবং এমন সব দুর্বলতা খুঁজে বের করে যা স্বাভাবিক ব্যবহারে সচরাচর প্রকাশ পায় না।

বিশেষজ্ঞ মহলের জন্য এর অর্থ হলো, স্ট্যাটিক টেস্ট এবং বাহ্যিক রেড-টিম দলের ওপর ভিত্তি করে বর্তমানে প্রচলিত নিরাপত্তা মূল্যায়ন পদ্ধতিগুলো আর যথেষ্ট নয়। একটি মডেল সব মানদণ্ডে নিরাপদ মনে হলেও এটি এমন আক্রমণের কাছে দুর্বল থেকে যেতে পারে যা সে নিজেই তৈরি করতে সক্ষম। এটি নিরাপত্তার প্রধান কৌশল হিসেবে 'পলিসি সেলফ-কনসিস্টেন্সি' বা নীতির অভ্যন্তরীণ সংহতির ওপর নির্ভর করা পদ্ধতিগুলোর নির্ভরযোগ্যতা নিয়ে বড় ধরনের প্রশ্ন তোলে।

6 দৃশ্য

উৎসসমূহ

arXiv:2605.08427

এই বিষয়ে আরও নিবন্ধ পড়ুন:

24 মে

মানুষের প্রযুক্তি সর্বদা অস্তিত্বের সামগ্রিক রূপরেখাকেই প্রতিফলিত করে

21 মে

GPT-5.5 Instant: OpenAI-এর আধুনিক আর্কিটেকচার কীভাবে উত্তর তৈরির প্রক্রিয়াকে আরও নিখুঁত করছে

21 মে

এনভিডিয়ার আইসিং মডেল উন্মোচন: কৃত্রিম বুদ্ধিমত্তার কোয়ান্টাম ত্রুটি সংশোধনে পরিসংখ্যানগত পদার্থবিদ্যার প্রভাব

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।