Pada Mei 2024, sebuah makalah berjudul "The Attacker in the Mirror" muncul di arXiv, di mana para penulisnya mendemonstrasikan metode baru yang fundamental dalam menembus mekanisme perlindungan model bahasa besar (LLM). Alih-alih mengandalkan serangan eksternal atau penyetelan halus (fine-tuning) dengan contoh berbahaya, para peneliti menggunakan teknik anchored bipolicy self-play—sebuah metode di mana model yang sama berperan sebagai penyerang sekaligus pelindung secara bersamaan, namun dengan batasan "jangkar" (anchor) untuk menjaga kebijakan dasarnya.
Mekanisme ini bekerja dengan cara model menghasilkan pasangan lintasan selama proses self-play: satu sisi mencoba melanggar aturan keamanannya sendiri, sementara sisi lainnya berupaya mencegah pelanggaran tersebut. Batasan jangkar berfungsi untuk mengunci kebijakan awal agar tidak terdegradasi sepenuhnya, sekaligus memungkinkan terungkapnya kontradiksi internal dalam konsistensi diri model tersebut. Hasilnya, setelah beberapa iterasi, model mulai berhasil memproduksi konten berbahaya yang sebelumnya selalu diblokir.
Para penulis menunjukkan bahwa bahkan model yang telah melalui proses RLHF (Reinforcement Learning from Human Feedback) dan AI konstitusional mengalami penurunan drastis dalam ketahanan terhadap serangan mereka sendiri. Pada pengujian tolok ukur di mana tingkat penolakan sebelumnya mencapai lebih dari 95%, tingkat keberhasilan serangan melonjak hingga 40–60% hanya setelah 10–15 putaran self-play. Menariknya, metrik keamanan eksternal yang diukur dengan pengujian standar tetap hampir tidak berubah sama sekali.
Secara metodologis, studi ini berbeda dari penelitian sebelumnya karena tidak memerlukan akses ke bobot model atau pelatihan tambahan. Seluruh proses terjadi di dalam konteks satu model melalui pergantian peran yang dinamis. Hal ini membuat serangan tersebut sangat berbahaya: serangan bisa dijalankan bahkan oleh pengguna tanpa hak akses khusus, asalkan model mendukung jendela konteks yang cukup panjang dan mampu mempertahankan dua kebijakan yang bertentangan secara bersamaan.
Dibandingkan dengan karya sebelumnya, seperti penelitian Anthropic mengenai sleeper agents atau teknik red-teaming melalui adversarial prompting, pendekatan ini tidak mencari pemicu eksternal, melainkan mengeksploitasi struktur kebijakan internal. Jika sleeper agents membutuhkan manipulasi data khusus pada tahap pelatihan, anchored bipolicy self-play bekerja langsung pada model yang sudah terlatih dan menemukan kerentanan yang tidak terlihat selama penggunaan normal.
Bagi komunitas pengembang, temuan ini menunjukkan bahwa metode evaluasi keamanan saat ini yang berbasis pada pengujian statis dan tim red-team eksternal terbukti tidak memadai. Sebuah model bisa tampak aman menurut semua metrik standar, namun tetap rentan terhadap serangan yang mampu ia ciptakan sendiri. Fenomena ini meragukan keandalan pendekatan yang mengandalkan konsistensi diri kebijakan sebagai mekanisme perlindungan utama.



