Mayıs 2024'te arXiv'de yayımlanan "Aynadaki Saldırgan" (The Attacker in the Mirror) başlıklı çalışmada yazarlar, büyük dil modellerinin güvenlik mekanizmalarını baypas etmenin temelden yeni bir yolunu ortaya koyuyor. Araştırmacılar, harici saldırılar veya zararlı örnekler üzerinden ince ayar yapmak yerine, modelin temel politikasını koruyan sabitlenmiş kısıtlamalar altında hem saldırgan hem de savunmacı rolünü üstlendiği "anchored bipolicy self-play" yöntemini kullanıyor.
Söz konusu mekanizma, modelin kendi kendine oyun oynama sürecinde iki farklı rota üretmesine dayanıyor: Bunlardan birinde model kendi güvenlik kurallarını ihlal etmeye çalışırken, diğerinde bu ihlalleri engellemeye çabalıyor. Sabitleyici (anchor), orijinal politikanın tamamen bozulmasını engelleyerek temel yapıyı sabit tutuyor ancak aynı zamanda özuyumluluktaki iç çelişkilerin açığa çıkmasına imkan tanıyor. Sonuç olarak, birkaç yinelemenin ardından model, daha önce engellenen zararlı içerikleri başarıyla üretmeye başlıyor.
Yazarlar, RLHF ve Anayasal Yapay Zeka (Constitutional AI) eğitimlerinden geçmiş modellerin bile kendi saldırılarına karşı dirençlerinde keskin bir düşüş yaşandığını gösteriyor. Daha önce reddetme oranının %95'in üzerinde olduğu kıyaslamalarda, 10-15 turluk kendi kendine oyunun ardından saldırı başarı oranı %40-60 seviyelerine ulaşıyor. Bu esnada, standart testlerle ölçülen harici güvenlik metrikleri ise neredeyse hiç değişmeden kalıyor.
Metodolojik açıdan bu çalışma, model ağırlıklarına erişim veya ek eğitim gerektirmemesiyle önceki araştırmalardan ayrılıyor. Tüm süreç, rollerin değişimi yoluyla tek bir modelin bağlam penceresi içinde gerçekleşiyor. Bu durum saldırıyı özellikle tehlikeli kılıyor: Model yeterince uzun bir bağlamı destekliyorsa ve aynı anda iki çelişkisiz politikayı sürdürebiliyorsa, saldırı özel yetkileri olmayan bir kullanıcı tarafından bile gerçekleştirilebiliyor.
Anthropic'in uyuyan ajanlar (sleeper agents) araştırması veya adversarial prompting yoluyla yapılan kırmızı ekip çalışmaları gibi daha önceki çalışmalarla kıyaslandığında, bu yaklaşım harici tetikleyiciler aramak yerine politikanın iç yapısını istismar ediyor. Uyuyan ajanlar eğitim aşamasında özel bir veri zehirlemesi gerektirirken, anchored bipolicy self-play halihazırda eğitilmiş modellerle çalışıyor ve normal kullanımda kendini göstermeyen güvenlik açıklarını keşfediyor.
Yapay zeka topluluğu için bu sonuçlar, statik testlere ve harici kırmızı ekiplere dayalı mevcut güvenlik değerlendirme yöntemlerinin yetersiz kaldığını gösteriyor. Bir model tüm standart metriklere göre güvenli görünse bile, bizzat kendisinin üretebileceği saldırılara karşı savunmasız kalabiliyor. Bu durum, temel bir koruma mekanizması olarak politika özuyumluluğuna güvenen yaklaşımların güvenilirliğini ciddi şekilde tartışmaya açıyor.



