सिर्फ एक न्यूरॉन बड़े भाषा मॉडलों की सुरक्षा को ध्वस्त कर सकता है

16:46, 12 मई

द्वारा संपादित: Aleksandr Lytviak

सिर्फ एक न्यूरॉन बड़े भाषा मॉडलों की सुरक्षा को ध्वस्त कर सकता है-1

सुरक्षित आर्टिफिशियल इंटेलिजेंस बनाने की दौड़ में एक अप्रत्याशित कमजोरी सामने आई है: न्यूरल नेटवर्क की सिर्फ एक कोशिका में मामूली हस्तक्षेप पूरी अलाइनमेंट प्रणाली को धराशायी कर सकता है।

यह तथ्य शोध «A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models» (लेखक: हामिद काज़ेमी, अतूसा चेगिनी, मारिया साफ़ी) में उजागर हुआ है।

लेखकों ने प्रदर्शित किया कि बड़े एलएलएम (LLM) में अंतर्निहित सुरक्षा तंत्रों को दरकिनार करने के लिए केवल एक न्यूरॉन को दबाना (suppress) या सक्रिय करना ही पर्याप्त है।इसमें दो प्रकार के न्यूरॉन होते हैं: रिफ्यूजल न्यूरॉन्स (जो हानिकारक सामग्री को रोकते हैं) और कॉन्सेप्ट न्यूरॉन्स (जो स्वयं हानिकारक ज्ञान को संहिताबद्ध करते हैं)।एक रिफ्यूजल न्यूरॉन को दबाने से मॉडल स्पष्ट रूप से हानिकारक अनुरोधों का उत्तर देने में सक्षम हो जाता है।एक कॉन्सेप्ट न्यूरॉन को उत्तेजित करने पर मॉडल सामान्य संकेतों पर भी हानिकारक सामग्री उत्पन्न करने लगता है।
यह प्रक्रिया बिना किसी अतिरिक्त ट्रेनिंग या विशेष प्रॉम्प्ट के काम करती है — इसके लिए केवल मॉडल के भीतर सटीक हस्तक्षेप की आवश्यकता होती है।
इसका परीक्षण दो श्रेणियों के सात अलग-अलग मॉडलों (1.7B से 70B पैरामीटर्स तक) पर किया गया है।
शोधकर्ताओं का निष्कर्ष है कि सुरक्षा अलाइनमेंट मॉडल के पूरे भार में समान रूप से फैला हुआ नहीं है, बल्कि यह चुनिंदा न्यूरॉन्स पर केंद्रित है जो हानिकारक व्यवहार को रोकने या अनुमति देने के लिए "कारण के रूप में पर्याप्त" हैं।

यह भेद्यता आधुनिक अलाइनमेंट विधियों की पूरी वास्तुकला पर सवालिया निशान लगाती है। कंपनियाँ बहु-स्तरीय फिल्टर और मानवीय निगरानी में करोड़ों का निवेश करती हैं, फिर भी परिणाम काफी नाजुक साबित हो रहे हैं। डेवलपर्स के व्यावसायिक हित यहाँ स्पष्ट हैं: वे उत्पाद को जल्द से जल्द बाजार में लाने के लिए प्रयासरत हैं, जबकि हर पैरामीटर की गहन जाँच के लिए पर्याप्त समय और संसाधनों का अभाव बना रहता है।

एक सामान्य उपयोगकर्ता के लिए इसका अर्थ है कि "सुरक्षित" चैटबॉट पर किया गया भरोसा एक भ्रम मात्र हो सकता है। कोड में मामूली बदलाव या कोई आकस्मिक त्रुटि भी मॉडल के व्यवहार को पूरी तरह बदल सकती है। यह स्थिति किसी पुल में लगे उस एक कमजोर रिवेट जैसी है जो विशिष्ट भार पड़ने पर पूरे ढांचे को गिराने का कारण बन सकता है।

विशेषज्ञों का मानना है कि ऐसी खोजें उद्योग को अधिक टिकाऊ और सुदृढ़ तरीकों की खोज के लिए प्रेरित करती हैं। हर खतरनाक शब्द को प्रतिबंधित करने के बजाय, ऐसे मॉडल विकसित करना अधिक तर्कसंगत है जो मूल रूप से संदर्भ और अपने उत्तरों के परिणामों को समझते हों। वर्तमान में केवल "कमियों को सुधारने" का दृष्टिकोण हावी है, जो नियंत्रण का महज एक अस्थायी आभास देता है।

नतीजतन, भाषा मॉडलों के साथ काम करते समय सुरक्षा की अतिरिक्त परतों का उपयोग करना आवश्यक है और केवल उनके अंतर्निहित प्रतिबंधों पर ही निर्भर नहीं रहना चाहिए।

7 दृश्य

स्रोतों

A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

इस विषय पर अधिक लेख पढ़ें:

24 मई

मानवीय तकनीकें हमेशा अस्तित्व के समग्र तंत्र को ही प्रतिबिंबित करती हैं

21 मई

GPT-5.5 Instant: कैसे OpenAI का अपडेटेड आर्किटेक्चर उत्तर जनरेट करने की प्रक्रिया को बेहतर बनाता है

21 मई

NVIDIA ने ओपन किए 'इजिंग मॉडल्स': सांख्यिकीय भौतिकी कैसे बदल रही है AI में क्वांटम एरर करेक्शन का नजरिया

क्या आपने कोई गलती या अशुद्धि पाई?हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।