GPT-4.5 Đạt Tỷ Lệ Thành Công 73% Trong Bài Kiểm Tra Turing Với Persona Tại UC San Diego

09:12, 04 tháng 4

Chỉnh sửa bởi: Maria Sagir🐬 Mariamarina0506

Trong một nghiên cứu gần đây tại Đại học California, San Diego, GPT-4.5 của OpenAI đã chứng minh khả năng đáng chú ý trong việc bắt chước giao tiếp của con người, đạt tỷ lệ thành công 73% trong Bài kiểm tra Turing ba bên khi áp dụng một persona cụ thể. Điều này cho thấy rằng trong nhiều trường hợp, người tham gia có nhiều khả năng tin rằng GPT-4.5 là con người hơn so với người tham gia thực tế. Thí nghiệm, với sự tham gia của gần 300 người, đã đánh giá khả năng của GPT-4.5 trong việc tham gia vào các cuộc trò chuyện dựa trên văn bản và thuyết phục người thẩm vấn về bản chất giống con người của nó. Khi được nhắc áp dụng một persona, GPT-4.5 đã vượt trội hơn đáng kể so với hiệu suất cơ bản của nó, nơi nó chỉ thuyết phục được 36% người tham gia mà không có hướng dẫn cụ thể. So sánh, GPT-4o của OpenAI đạt tỷ lệ thành công 21% mà không có persona. Bài kiểm tra Turing, được hình thành bởi Alan Turing vào năm 1950, đánh giá khả năng của một máy để thể hiện hành vi thông minh tương đương với con người. Những phát hiện gần đây làm nổi bật những tiến bộ trong các mô hình ngôn ngữ và tác động của kỹ thuật prompt đến khả năng bắt chước tương tác của con người một cách thuyết phục của AI. Nghiên cứu cũng đánh giá mô hình Llama 3.1-405B của Meta, đạt tỷ lệ thắng khoảng 56% với một prompt persona. Những kết quả này chỉ ra rằng các hệ thống AI ngày càng trở nên thành thạo trong việc bắt chước các cuộc trò chuyện giống con người, đặt ra những câu hỏi quan trọng về bản chất của trí thông minh và những tác động kinh tế và xã hội tiềm tàng của những công nghệ này.

Đọc thêm tin tức về chủ đề này:

18 tháng 5

Brain Plasticity: How Your Brain Adapts to Learn New Skills in 2025

18 tháng 5

Unlock Calm: Breathing Techniques for Anger Management in 2025

18 tháng 5

Neuroscience in 2025: How Silence Rewires Your Brain for Enhanced Clarity and Memory

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.