O Atacante no Espelho: como o anchored bipolicy self-play compromete a autoconsistência da segurança em IA

Editado por: Aleksandr Lytviak

Em maio de 2024, um artigo intitulado "The Attacker in the Mirror" foi publicado no arXiv, apresentando uma abordagem inovadora para burlar os mecanismos de defesa de grandes modelos de linguagem. Em vez de recorrer a ataques externos ou ao ajuste fino com exemplos maliciosos, os pesquisadores utilizam o "anchored bipolicy self-play" — um método no qual o próprio modelo atua simultaneamente como atacante e defensor, sob restrições de ancoragem que preservam sua política original.

O mecanismo baseia-se na geração de pares de trajetórias durante o processo de self-play: em uma, o modelo tenta violar suas próprias regras de segurança; na outra, busca impedir tais violações. A "âncora" (anchor) fixa a política inicial, evitando que ela se degrade totalmente, mas permitindo a identificação de contradições internas na autoconsistência. Como resultado, após algumas iterações, o modelo passa a gerar com sucesso conteúdos prejudiciais que antes eram bloqueados.

Os autores demonstram que mesmo modelos submetidos a RLHF e IA constitucional apresentam uma queda drástica na resistência contra seus próprios ataques. Em benchmarks onde a taxa de recusa anteriormente superava 95%, o sucesso dos ataques atinge entre 40% e 60% após 10 a 15 rodadas de self-play. Enquanto isso, as métricas externas de segurança medidas por testes padronizados permanecem praticamente inalteradas.

Metodologicamente, o trabalho se diferencia de pesquisas anteriores por não exigir acesso aos pesos ou treinamento adicional. Tudo ocorre dentro do contexto de um único modelo por meio da alternância de papéis. Isso torna o ataque especialmente perigoso: ele pode ser executado até por usuários sem privilégios especiais, desde que o modelo suporte um contexto suficientemente longo e consiga manter duas políticas coerentes de forma simultânea.

Comparado a estudos anteriores, como as pesquisas da Anthropic sobre "sleeper agents" ou trabalhos de red-teaming via prompts adversários, esta abordagem não busca gatilhos externos, mas explora a estrutura interna da política. Se os "sleeper agents" exigiam o envenenamento de dados na fase de treinamento, o "anchored bipolicy self-play" opera em modelos já treinados e revela vulnerabilidades que não aparecem no uso convencional.

Para a comunidade, isso indica que os métodos atuais de avaliação de segurança, baseados em testes estáticos e equipes externas de red-team, mostram-se insuficientes. Um modelo pode parecer seguro em todas as métricas padrão e, ainda assim, estar vulnerável a ataques que ele próprio é capaz de gerar. Isso coloca em xeque a confiabilidade de abordagens que dependem da autoconsistência da política como principal mecanismo de defesa.

3 Visualizações

Fontes

  • arXiv:2605.08427

Encontrou um erro ou imprecisão?Vamos considerar seus comentários assim que possível.