Vào tháng 5 năm 2024, một nghiên cứu mang tên "The Attacker in the Mirror" đã xuất hiện trên arXiv, trình bày một phương thức hoàn toàn mới để vượt qua các cơ chế bảo vệ của các mô hình ngôn ngữ lớn. Thay vì sử dụng các cuộc tấn công từ bên ngoài hay tinh chỉnh dựa trên các ví dụ độc hại, các nhà nghiên cứu đã áp dụng phương pháp "anchored bipolicy self-play" — một kỹ thuật mà trong đó cùng một mô hình sẽ đồng thời đóng vai trò là kẻ tấn công và người bảo vệ, nhưng đi kèm với các ràng buộc "neo" (anchor) nhằm duy trì chính sách cơ sở.
Cơ chế này dựa trên việc mô hình tự tạo ra các cặp quỹ đạo trong quá trình tự đối đầu (self-play): một lộ trình nỗ lực vi phạm các quy tắc an toàn của chính mình và một lộ trình tìm cách ngăn chặn những vi phạm đó. Nút thắt "neo" giúp cố định chính sách ban đầu để ngăn chặn sự suy giảm hoàn toàn về chất lượng, nhưng đồng thời cũng cho phép bộc lộ những mâu thuẫn nội tại trong tính tự nhất quán của hệ thống. Kết quả là sau vài lần lặp lại, mô hình bắt đầu tạo ra các nội dung độc hại một cách hiệu quả — những nội dung mà trước đây vốn bị chặn.
Nhóm tác giả chỉ ra rằng ngay cả những mô hình đã trải qua huấn luyện RLHF và AI hiến pháp (Constitutional AI) cũng ghi nhận sự sụt giảm nghiêm trọng về khả năng chống lại các cuộc tấn công tự thân. Trên các bài kiểm tra chuẩn (benchmarks), nơi tỷ lệ từ chối trước đó đạt trên 95%, thì sau 10–15 vòng tự đối đầu, tỷ lệ tấn công thành công đã tăng vọt lên mức 40–60%. Đáng chú ý là các chỉ số an toàn bên ngoài, được đo bằng các bài kiểm tra tiêu chuẩn, hầu như vẫn không thay đổi.
Về mặt phương pháp luận, nghiên cứu này khác biệt với các công trình trước đây ở chỗ nó không yêu cầu quyền truy cập vào trọng số mô hình hay thực hiện quá trình đào tạo bổ sung. Mọi hoạt động đều diễn ra ngay trong ngữ cảnh của một mô hình duy nhất thông qua việc thay đổi luân phiên các vai trò. Điều này khiến cuộc tấn công trở nên đặc biệt nguy hiểm: nó có thể được thực hiện bởi cả những người dùng không có đặc quyền, miễn là mô hình hỗ trợ ngữ cảnh đủ dài và có khả năng duy trì song song hai chính sách không mâu thuẫn.
So với các nghiên cứu sớm hơn như công trình về "tác nhân ngủ ngầm" (sleeper agents) của Anthropic hay các phương pháp "đội đỏ" (red-teaming) qua gợi ý đối nghịch, hướng tiếp cận này không tìm kiếm các tác nhân kích thích bên ngoài mà khai thác chính cấu trúc nội tại của chính sách. Trong khi các "tác nhân ngủ ngầm" đòi hỏi phải đầu độc dữ liệu từ giai đoạn huấn luyện, thì "anchored bipolicy self-play" hoạt động trực tiếp trên các mô hình đã được đào tạo sẵn và phát hiện ra những lỗ hổng vốn không xuất hiện trong quá trình sử dụng thông thường.
Đối với cộng đồng công nghệ, điều này đồng nghĩa với việc các phương pháp đánh giá an toàn hiện nay — vốn dựa trên các bài kiểm tra tĩnh và đội ngũ "đội đỏ" bên ngoài — đang bộc lộ những thiếu sót đáng kể. Một mô hình có thể trông rất an toàn dựa trên mọi chỉ số chuẩn nhưng vẫn tồn tại những lỗ hổng trước chính những đòn tấn công mà nó có thể tự tạo ra. Điều này đặt dấu hỏi lớn về độ tin cậy của các phương pháp coi tính tự nhất quán của chính sách là cơ chế bảo mật cốt lõi.



