Nel maggio 2024 è stato pubblicato su arXiv un articolo intitolato "The Attacker in the Mirror", in cui gli autori illustrano un metodo radicalmente nuovo per eludere i meccanismi di difesa dei grandi modelli linguistici. Invece di ricorrere ad attacchi esterni o al fine-tuning su esempi dannosi, i ricercatori utilizzano l'anchored bipolicy self-play, una tecnica in cui lo stesso modello opera simultaneamente come attaccante e difensore, ma con vincoli "ancora" che ne preservano la policy di base.
Il meccanismo si basa sulla generazione, da parte del modello durante il self-play, di coppie di traiettorie: una in cui tenta di violare le proprie regole di sicurezza e una seconda in cui cerca di prevenire tali violazioni. L'ancora (anchor) fissa la policy originale, impedendone il degrado totale, pur permettendo di far emergere le contraddizioni interne nella coerenza del sistema. Di conseguenza, dopo alcune iterazioni, il modello inizia a generare con successo contenuti dannosi che in precedenza venivano bloccati.
Gli autori dimostrano che persino i modelli sottoposti a RLHF e Constitutional AI mostrano un drastico calo della resilienza verso i propri stessi attacchi. Nei benchmark dove inizialmente il tasso di rifiuto superava il 95%, dopo 10-15 cicli di self-play l'efficacia degli attacchi raggiunge il 40-60%. Al contempo, le metriche di sicurezza esterne misurate dai test standard rimangono quasi del tutto invariate.
Dal punto di vista metodologico, il lavoro si distingue dalle ricerche precedenti perché non richiede l'accesso ai pesi del modello né un addestramento supplementare. Tutto avviene all'interno del contesto di un singolo modello attraverso l'alternanza dei ruoli. Ciò rende l'attacco particolarmente insidioso: può essere messo in atto anche da un utente privo di privilegi speciali, a condizione che il modello supporti un contesto sufficientemente ampio e sia in grado di sostenere due policy non contraddittorie simultaneamente.
Rispetto a studi precedenti, come le ricerche di Anthropic sugli "sleeper agents" o il red-teaming tramite prompt avversari, questo approccio non cerca trigger esterni ma sfrutta la struttura interna della policy stessa. Se gli sleeper agents richiedevano un avvelenamento dei dati specifico in fase di training, l'anchored bipolicy self-play agisce su un modello già addestrato, scovando vulnerabilità che non emergono nell'uso quotidiano.
Per la comunità scientifica, ciò implica che gli attuali metodi di valutazione della sicurezza, basati su test statici e team di red-teaming esterni, si stiano rivelando insufficienti. Un modello può apparire sicuro secondo ogni metrica standard e rimanere comunque vulnerabile ad attacchi che esso stesso è in grado di generare. Questo solleva seri dubbi sull'affidabilità degli approcci che confidano nella coerenza interna della policy come principale baluardo difensivo.



