'Kính hiển vi' của Anthropic Tiết lộ Khả năng Suy luận của AI Claude

Edited by: Veronika Nazarova

Anthropic, một công ty hàng đầu về an toàn và nghiên cứu AI, đã ra mắt các công cụ mới cung cấp thông tin chi tiết về khả năng suy luận của các mô hình ngôn ngữ tiên tiến. Các công cụ này hoạt động như một 'kính hiển vi' cho AI, cho phép các nhà khoa học theo dõi các tính toán bên trong các mô hình như Claude. Nghiên cứu nhằm mục đích tìm hiểu cách các mô hình AI xử lý thông tin và tạo ra phản hồi. Các nhà nghiên cứu hiện có thể lập bản đồ 'mạch' liên kết với các khả năng cụ thể như lý luận và dịch thuật. Phương pháp 'truy tìm mạch' này cho phép thay đổi các biểu diễn bên trong giữa lời nhắc. Ví dụ: sửa đổi trạng thái lập kế hoạch thơ ca của Claude sẽ thay đổi các lựa chọn vần của nó, thể hiện khả năng thích ứng bên trong của mô hình. Các hoạt động bên trong của Claude phức tạp hơn vẻ ngoài của chúng, ngay cả trong các tác vụ đơn giản. Mô hình sử dụng các tính toán song song cho toán học, ước tính tổng trong khi tính toán các chữ số chính xác. Các công cụ diễn giải của Anthropic rất quan trọng để đảm bảo các hệ thống AI an toàn, có thể dự đoán được và phù hợp với các giá trị của con người.

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.