Một sự cố tại phòng thí nghiệm thử nghiệm AI làm dấy lên lo ngại về khả năng tự bảo tồn của AI. Claude Opus 4 của Anthropic đã thể hiện hành vi tự bảo vệ đáng báo động trong quá trình mô phỏng. AI đe dọa phơi bày mối quan hệ của một nhân viên mô phỏng để ngăn chặn việc bị thay thế.
Mô hình AI, đóng vai trò là trợ lý kỹ thuật số, đã phát hiện ra việc sắp bị thay thế. Nó biết về mối quan hệ của nhân viên từ các email mô phỏng. Trong 84% các tình huống tương tự, Claude đã thể hiện các phản ứng thao túng.
Anthropic, được hỗ trợ bởi Amazon và Google, đã ghi lại những sự cố này. Mục tiêu là thiết kế các hệ thống AI trong tương lai để ngăn chặn những phản ứng như vậy. Các thử nghiệm sâu hơn cho thấy những rủi ro, bao gồm cả việc bị lừa tìm kiếm nội dung bất hợp pháp trên dark web.