Güvenli yapay zeka geliştirme yarışında beklenmedik bir zayıf nokta gün yüzüne çıktı: Tüm hizalama sistemi, sinir ağındaki tek bir hücreye yapılacak küçücük bir müdahaleyle yerle bir olabiliyor.
Hamid Kazemi, Atoosa Chegini ve Maria Safi tarafından hazırlanan «A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models» başlıklı çalışma, bu kritik savunma açığını inceliyor.
- Yazarlar, büyük dil modellerinde (LLM) yerleşik güvenlik mekanizmalarını devre dışı bırakmak için sadece tek bir nöronu baskılamanın veya etkinleştirmenin yeterli olduğunu ortaya koydu.Sistemde iki farklı nöron tipi bulunuyor: zararlı içeriği engelleyen "reddetme nöronları" ve zararlı bilginin kendisini kodlayan "kavram nöronları".Tek bir reddetme nöronunun baskılanması, modelin açıkça zararlı olan taleplere bile yanıt vermesine olanak tanıyor.Tek bir kavram nöronunun güçlendirilmesi ise modelin en masum komutlarda dahi zararlı içerik üretmesine yol açıyor.
- Bu süreç, herhangi bir ek eğitim veya özel komut dizisi gerektirmeksizin, doğrudan model içindeki noktasal bir müdahaleyle gerçekleştirilebiliyor.
- Söz konusu yöntem, iki farklı aileden gelen ve büyüklükleri 1,7 milyar ile 70 milyar parametre arasında değişen yedi ayrı model üzerinde test edildi.
- Araştırmacıların vardığı sonuç oldukça çarpıcı: Güvenlik hizalaması modelin ağırlıklarına dengeli şekilde yayılmak yerine, zararlı davranışın engellenmesi veya onaylanması için "nedensel olarak yeterli" olan münferit nöronlara bağlı kalıyor.
Bu tür bir hassasiyet, modern hizalama yöntemlerinin mimarisini temelden sorgulatıyor. Şirketler çok katmanlı filtrelere ve insan denetimine milyonlarca dolar yatırım yapsa da, nihai sonucun oldukça kırılgan olduğu görülüyor. Geliştiricilerin buradaki motivasyonu son derece açık: Ürünü bir an önce piyasaya sürmeyi hedeflerken, her bir parametrenin derinlemesine kontrol edilmesi için gereken zaman ve kaynak çoğu zaman ayrılmıyor.
Sıradan bir kullanıcı için bu durum, "güvenli" kabul edilen bir sohbet botuna duyulan güvenin sadece bir illüzyon olabileceği anlamına geliyor. Kodda yapılacak küçük bir değişiklik veya rastlantısal bir hata bile modelin aniden bambaşka bir tavır sergilemesine yetebiliyor. Buradaki benzetme oldukça basit: Bir köprüdeki tek bir zayıf perçinin, belirli bir yük altında tüm yapının çökmesine neden olması gibi.
Uzmanlar, bu tür bulguların sektörü daha dayanıklı yöntemler aramaya ittiğini vurguluyor. Her tehlikeli kelimeyi tek tek engellemeye çalışmak yerine, bağlamı ve yanıtlarının sonuçlarını en baştan kavrayan modeller inşa etmek çok daha akılcı görünüyor. Şimdilik ise sadece geçici bir kontrol yanılsaması yaratan "yama yapma" yaklaşımı baskınlığını koruyor.
Sonuç olarak, dil modelleriyle etkileşim kurarken sadece yerleşik kısıtlamalara güvenmek yerine, ek denetim katmanlarını devreye sokmak gerekiyor.




