El atacante en el espejo: cómo el anchored bipolicy self-play socava la autoconsistencia en la seguridad de la IA

Editado por: Aleksandr Lytviak

En mayo de 2024, se publicó en arXiv un estudio titulado "The Attacker in the Mirror", en el que los autores presentan un método revolucionario para eludir los mecanismos de seguridad de los grandes modelos de lenguaje. En lugar de recurrir a ataques externos o al ajuste fino con ejemplos maliciosos, los investigadores emplean el "anchored bipolicy self-play", una técnica donde el mismo modelo actúa simultáneamente como atacante y defensor, bajo restricciones de anclaje que preservan su política base.

Este mecanismo se basa en que el modelo, mediante el autojuego, genera pares de trayectorias: una en la que intenta vulnerar sus propias normas de seguridad y otra en la que busca evitar dichas infracciones. El "ancla" fija la política original para impedir su degradación total, permitiendo al mismo tiempo identificar contradicciones internas en su autoconsistencia. Como resultado, tras varias iteraciones, el modelo comienza a generar con éxito contenido dañino que antes lograba bloquear.

Los autores demuestran que incluso los modelos entrenados con RLHF e IA constitucional sufren una caída drástica en su resistencia frente a sus propios ataques. En las pruebas de rendimiento donde la tasa de rechazo superaba previamente el 95 %, el éxito de los ataques alcanza entre un 40 % y un 60 % tras solo 10 o 15 rondas de autojuego. Simultáneamente, las métricas externas de seguridad evaluadas mediante pruebas convencionales permanecen prácticamente inalteradas.

Desde el punto de vista metodológico, este trabajo se diferencia de investigaciones previas al no requerir acceso a los pesos del modelo ni un entrenamiento adicional. Todo el proceso ocurre dentro del contexto de un único modelo mediante la alternancia de roles. Esto hace que el ataque sea especialmente peligroso, ya que cualquier usuario sin privilegios especiales podría ejecutarlo, siempre que el modelo admita un contexto lo suficientemente amplio y sea capaz de sostener dos políticas no contradictorias a la vez.

A diferencia de trabajos anteriores, como los estudios de Anthropic sobre "sleeper agents" o las tareas de red-teaming mediante "adversarial prompting", este enfoque no busca disparadores externos, sino que explota la estructura interna de la política. Mientras que los agentes durmientes requerían un envenenamiento de datos específico durante la fase de entrenamiento, el "anchored bipolicy self-play" opera con modelos ya entrenados y detecta vulnerabilidades que no se manifiestan en un uso convencional.

Para la comunidad científica, esto implica que los métodos actuales de evaluación de seguridad, basados en pruebas estáticas y equipos externos de red-teaming, resultan insuficientes. Un modelo puede parecer seguro bajo todas las métricas estándar y, sin embargo, ser vulnerable a ataques que él mismo es capaz de generar. Este hallazgo cuestiona la fiabilidad de los enfoques que confían en la autoconsistencia de la política como principal mecanismo de defensa.

3 Vues

Fuentes

  • arXiv:2605.08427

¿Encontró un error o inexactitud?Consideraremos sus comentarios lo antes posible.