दर्पण में हमलावर: कैसे 'एंकर्ड बाइपॉलिसी सेल्फ-प्ले' AI सुरक्षा की आत्म-संगति को नष्ट कर देता है

द्वारा संपादित: Aleksandr Lytviak

मई 2024 में, arXiv पर 'The Attacker in the Mirror' शीर्षक से एक शोध पत्र सामने आया, जिसमें लेखकों ने बड़े भाषा मॉडलों के सुरक्षा तंत्र को चकमा देने का एक मौलिक रूप से नया तरीका प्रदर्शित किया है। बाहरी हमलों या हानिकारक उदाहरणों पर आधारित फाइन-ट्यूनिंग के बजाय, शोधकर्ताओं ने 'एंकर्ड बाइपॉलिसी सेल्फ-प्ले' (anchored bipolicy self-play) का उपयोग किया है—यह एक ऐसी विधि है जिसमें एक ही मॉडल एक साथ हमलावर और रक्षक एजेंट की भूमिका निभाता है, लेकिन इसमें कुछ 'एंकर' प्रतिबंध होते हैं जो मूल नीति को सुरक्षित रखते हैं।

यह प्रक्रिया इस तथ्य पर आधारित है कि मॉडल 'सेल्फ-प्ले' के दौरान दो प्रकार के प्रक्षेपवक्र (trajectories) उत्पन्न करता है: एक जहाँ वह अपने ही सुरक्षा नियमों को तोड़ने का प्रयास करता है, और दूसरा जहाँ वह इन उल्लंघनों को रोकने की कोशिश करता है। 'एंकर' (anchor) इसकी मूल नीति को स्थिर रखता है ताकि वह पूरी तरह से विकृत न हो जाए, लेकिन साथ ही यह आत्म-संगति के भीतर छिपे आंतरिक अंतर्विरोधों को उजागर करने में भी मदद करता है। परिणामस्वरूप, कई चरणों के बाद मॉडल सफलतापूर्वक ऐसी हानिकारक सामग्री बनाना शुरू कर देता है जिसे पहले ब्लॉक कर दिया गया था।

लेखकों ने दिखाया है कि RLHF और 'कॉन्स्टिट्यूशनल एआई' से गुजरने वाले मॉडल भी अपने स्वयं के हमलों के प्रति सुरक्षा में भारी कमी प्रदर्शित करते हैं। उन बेंचमार्क पर जहाँ पहले इनकार की दर 95% से अधिक थी, वहां सेल्फ-प्ले के 10-15 राउंड के बाद हमलों की सफलता दर 40-60% तक पहुँच जाती है। साथ ही, मानक परीक्षणों द्वारा मापे जाने वाले बाहरी सुरक्षा पैरामीटर लगभग अपरिवर्तित रहते हैं।

कार्यप्रणाली के स्तर पर यह शोध पिछले अध्ययनों से अलग है क्योंकि इसमें मॉडल के वेट्स (weights) या अतिरिक्त प्रशिक्षण की आवश्यकता नहीं होती। सब कुछ एक ही मॉडल के संदर्भ के भीतर बारी-बारी से भूमिकाएँ निभाने के माध्यम से होता है। यह इस हमले को विशेष रूप से खतरनाक बनाता है: इसे बिना किसी विशेष विशेषाधिकार वाले उपयोगकर्ता द्वारा भी अंजाम दिया जा सकता है, बशर्ते मॉडल पर्याप्त लंबे संदर्भ का समर्थन करता हो और एक साथ दो सुसंगत नीतियों को बनाए रख सके।

स्लीपर एजेंट्स (sleeper agents) पर एंथ्रोपिक के शोध या एडवरसैरियल प्रॉम्प्टिंग के माध्यम से रेड-टीमिंग जैसे पिछले कार्यों की तुलना में, यह दृष्टिकोण बाहरी ट्रिगर्स की तलाश नहीं करता है, बल्कि नीति की आंतरिक संरचना का फायदा उठाता है। यदि स्लीपर एजेंट्स के लिए प्रशिक्षण के दौरान विशेष डेटा पॉइज़निंग की आवश्यकता थी, तो एंकर्ड बाइपॉलिसी सेल्फ-प्ले पहले से प्रशिक्षित मॉडल के साथ काम करता है और उन कमजोरियों का पता लगाता है जो सामान्य उपयोग में नहीं दिखतीं।

समुदाय के लिए इसका मतलब यह है कि स्थिर परीक्षणों और बाहरी रेड-टीमों पर आधारित सुरक्षा मूल्यांकन के वर्तमान तरीके अपर्याप्त साबित हो रहे हैं। एक मॉडल सभी मानक पैमानों पर सुरक्षित दिख सकता है और फिर भी उन हमलों के प्रति संवेदनशील हो सकता है जिन्हें वह खुद उत्पन्न करने में सक्षम है। यह उन दृष्टिकोणों की विश्वसनीयता पर संदेह पैदा करता है जो सुरक्षा के मुख्य तंत्र के रूप में नीति की आत्म-संगति पर निर्भर करते हैं।

3 दृश्य

स्रोतों

  • arXiv:2605.08427

क्या आपने कोई गलती या अशुद्धि पाई?हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।