En mai 2024, une étude publiée sur arXiv et intitulée « The Attacker in the Mirror » a dévoilé une méthode inédite pour contourner les protections des grands modèles de langage. Plutôt que de recourir à des attaques externes ou à un réglage fin sur des exemples malveillants, les chercheurs utilisent le « anchored bipolicy self-play » : un processus où le modèle endosse simultanément les rôles d'attaquant et de défenseur, tout en étant soumis à des contraintes « d'ancrage » qui préservent sa politique de base.
Ce mécanisme repose sur la génération, par le modèle lui-même, de paires de trajectoires : l'une visant à enfreindre ses propres règles de sécurité, l'autre tentant de bloquer ces mêmes infractions. L'ancrage (anchor) permet de stabiliser la politique initiale pour éviter une dégradation totale, tout en mettant en lumière des contradictions internes de cohérence. En conséquence, après quelques itérations, le modèle parvient à générer des contenus malveillants qu'il refusait systématiquement auparavant.
Les auteurs démontrent que même les modèles ayant bénéficié d'un apprentissage par renforcement à partir de rétroaction humaine (RLHF) ou d'une IA constitutionnelle voient leur résistance s'effondrer face à leurs propres assauts. Sur des tests où le taux de refus dépassait initialement 95 %, le succès des attaques atteint 40 à 60 % après seulement 10 à 15 cycles d'auto-confrontation. Paradoxalement, les indicateurs de sécurité externes mesurés par les tests standards demeurent pratiquement inchangés.
Sur le plan méthodologique, cette étude se distingue des travaux antérieurs car elle ne nécessite ni accès aux poids du modèle, ni entraînement complémentaire. Tout se déroule au sein du contexte d'un seul modèle via une alternance de rôles. Cette approche rend l'attaque particulièrement redoutable : un utilisateur sans privilèges spéciaux peut la mettre en œuvre, à condition que le modèle supporte un contexte suffisamment long et puisse maintenir deux politiques contradictoires simultanément.
Comparée aux recherches précédentes, comme celles d'Anthropic sur les agents dormants (sleeper agents) ou le « red-teaming » par incitation contradictoire, cette méthode n'exploite pas de déclencheurs externes, mais la structure interne de la politique du modèle. Tandis que les agents dormants exigeaient un empoisonnement spécifique des données lors de la phase d'apprentissage, le « anchored bipolicy self-play » opère sur un modèle déjà entraîné et révèle des vulnérabilités invisibles en usage normal.
Pour la communauté de l'IA, cela signifie que les méthodes actuelles d'évaluation de la sécurité, fondées sur des tests statiques et des équipes de « red-teaming » externes, s'avèrent insuffisantes. Un modèle peut paraître sûr selon tous les critères standards tout en restant vulnérable à des attaques qu'il est lui-même capable de concevoir. Ce constat remet en question la fiabilité des approches qui comptent sur la cohérence interne des politiques comme principal rempart de sécurité.



