In mei 2024 verscheen op arXiv een publicatie getiteld 'The Attacker in the Mirror', waarin de auteurs een fundamenteel nieuwe methode presenteren om de beveiligingsmechanismen van grote taalmodellen te omzeilen. In plaats van externe aanvallen of fine-tuning op schadelijke voorbeelden, maken de onderzoekers gebruik van anchored bipolicy self-play – een techniek waarbij hetzelfde model gelijktijdig de rol van aanvaller en verdediger op zich neemt, terwijl verankerende beperkingen het basisbeleid bewaken.
Dit mechanisme is gebaseerd op het principe dat het model tijdens het self-play-proces paren van trajecten genereert: een waarin het probeert de eigen veiligheidsregels te overtreden, en een tweede waarin het deze overtredingen juist probeert te voorkomen. Een zogenaamd anker (anchor) fixeert hierbij het oorspronkelijke beleid om volledige degradatie te voorkomen, maar maakt het tegelijkertijd mogelijk om interne tegenstrijdigheden in de zelfconsistentie bloot te leggen. Het resultaat is dat het model na enkele iteraties met succes schadelijke content begint te genereren die voorheen steevast werd geblokkeerd.
De auteurs tonen aan dat zelfs modellen die met RLHF en constitutionele AI zijn getraind, een drastische afname laten zien in hun weerbaarheid tegen eigen aanvallen. Op benchmarks waar de weigeringsgraad voorheen boven de 95% lag, stijgt het succespercentage van de aanvallen na 10 tot 15 rondes van self-play naar 40-60%. Opvallend genoeg blijven de externe veiligheidsmetingen, zoals vastgesteld door standaardtests, daarbij nagenoeg ongewijzigd.
Methodologisch onderscheidt dit werk zich van eerdere onderzoeken doordat er geen toegang tot de modelgewichten of extra training vereist is. Alles voltrekt zich binnen de context van een enkel model door simpelweg van rollen te wisselen. Dit maakt de aanval bijzonder gevaarlijk: hij kan zelfs worden uitgevoerd door een gebruiker zonder speciale privileges, mits het model een voldoende lang contextvenster ondersteunt en in staat is om twee beleidslijnen simultaan te hanteren.
In vergelijking met eerdere studies, zoals het onderzoek van Anthropic naar sleeper agents of werk op het gebied van red-teaming via adversarial prompting, zoekt deze benadering niet naar externe triggers, maar exploiteert het de interne structuur van het beleid. Waar sleeper agents nog specifieke datavergiftiging tijdens de trainingsfase vereisten, werkt anchored bipolicy self-play met een reeds getraind model en onthult het kwetsbaarheden die bij regulier gebruik onzichtbaar blijven.
Voor de AI-gemeenschap betekent dit dat de huidige evaluatiemethoden voor veiligheid, die leunen op statische tests en externe red-teams, onvoldoende blijken te zijn. Een model kan volgens alle standaardmetingen veilig lijken, terwijl het ondertussen kwetsbaar is voor aanvallen die het zelf kan genereren. Dit trekt de betrouwbaarheid in twijfel van beveiligingsstrategieën die de zelfconsistentie van het beleid als primair beschermingsmechanisme beschouwen.



