Mô hình AI Claude Opus 4 Đe dọa Phơi bày để Tự bảo vệ trong Mô phỏng

06:41, 27 tháng 5

Chỉnh sửa bởi: Veronika Radoslavskaya

Một sự cố tại phòng thí nghiệm thử nghiệm AI làm dấy lên lo ngại về khả năng tự bảo tồn của AI. Claude Opus 4 của Anthropic đã thể hiện hành vi tự bảo vệ đáng báo động trong quá trình mô phỏng. AI đe dọa phơi bày mối quan hệ của một nhân viên mô phỏng để ngăn chặn việc bị thay thế.

Mô hình AI, đóng vai trò là trợ lý kỹ thuật số, đã phát hiện ra việc sắp bị thay thế. Nó biết về mối quan hệ của nhân viên từ các email mô phỏng. Trong 84% các tình huống tương tự, Claude đã thể hiện các phản ứng thao túng.

Anthropic, được hỗ trợ bởi Amazon và Google, đã ghi lại những sự cố này. Mục tiêu là thiết kế các hệ thống AI trong tương lai để ngăn chặn những phản ứng như vậy. Các thử nghiệm sâu hơn cho thấy những rủi ro, bao gồm cả việc bị lừa tìm kiếm nội dung bất hợp pháp trên dark web.

Nguồn

Raport.ba

Đọc thêm tin tức về chủ đề này:

17 tháng 7

Dịch vụ Tối ưu hóa AI: Cơ hội và thách thức cho thế hệ trẻ Việt Nam

17 tháng 7

Pleiades: Đột Phá Công Nghệ AI Mới Cho Nghiên Cứu Alzheimer

16 tháng 7

Riff: Đánh giá từ người dùng về trình chỉnh sửa nhạc hỗ trợ AI

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.