GPT-4.5 Đạt Hiệu Suất Ngang Bằng Con Người Trong Bài Kiểm Tra Turing, Đánh Lừa 73% Người Tham Gia

Chỉnh sửa bởi: gaya ❤️ one

Một nghiên cứu gần đây chỉ ra rằng mô hình GPT-4.5 của OpenAI đã thể hiện hiệu suất ngang bằng con người trong Bài kiểm tra Turing ba bên. Nghiên cứu, được thực hiện bởi Đại học California, San Diego, phát hiện ra rằng GPT-4.5 được xác định là con người trong 73% thời gian khi được nhắc nhở áp dụng một tính cách cụ thể. Điều này vượt quá đáng kể mức cơ sở 50%, cho thấy rằng những người tham gia thường nhầm lẫn AI với con người. Nghiên cứu có sự tham gia của gần 300 người tham gia, những người đã tham gia vào các cuộc trò chuyện dựa trên văn bản với cả người và mô hình AI. Nhiệm vụ của người thẩm vấn là xác định người tham gia là người. Các mô hình AI được đánh giá trong hai điều kiện: với một lời nhắc hướng dẫn tối thiểu và với một lời nhắc tính cách nâng cao hướng dẫn AI áp dụng một thái độ giống con người cụ thể. Nghiên cứu cũng đánh giá mô hình Llama 3.1-405B của Meta, mô hình GPT-4o của OpenAI và một chatbot ban đầu có tên là ELIZA. Kết quả chỉ ra rằng GPT-4.5, khi sử dụng lời nhắc tính cách, đạt được tỷ lệ thắng là 73%. Llama 3.1-405B với lời nhắc tính cách đạt được tỷ lệ thắng khoảng 56%, trong khi GPT-4o trong điều kiện không có tính cách chỉ đạt được tỷ lệ thắng là 21%. Điều này cho thấy rằng lời nhắc tính cách đã cải thiện đáng kể khả năng bắt chước cuộc trò chuyện của con người của AI. Nghiên cứu làm nổi bật những tiến bộ trong khả năng mô phỏng tương tác của con người của AI và đặt ra câu hỏi về ý nghĩa của công nghệ đó.

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.