OpenAI ra mắt HealthBench để đánh giá các mô hình AI trong lĩnh vực chăm sóc sức khỏe

Chỉnh sửa bởi: Veronika Nazarova

OpenAI đã giới thiệu HealthBench vào ngày 13 tháng 5 năm 2025, một tập dữ liệu mới để đánh giá các mô hình AI trong lĩnh vực chăm sóc sức khỏe. Mục tiêu là tạo ra một bác sĩ AI 24/7 có thể truy cập thông qua một thiết bị bỏ túi. Sáng kiến này đánh giá khả năng cung cấp lời khuyên y tế đáng tin cậy của AI. HealthBench là một tập dữ liệu nguồn mở, đo điểm chuẩn các mô hình AI dựa trên các tiêu chí do bác sĩ viết. Mô hình suy luận o3 của OpenAI dẫn đầu với số điểm 60%. Grok theo sau với 54% và Gemini 2.5 Pro của Google đạt 52%. Tầm nhìn về một bác sĩ AI 24/7 có thể cách mạng hóa khả năng tiếp cận dịch vụ chăm sóc sức khỏe, đặc biệt là ở các vùng sâu vùng xa. Tuy nhiên, bản chất sử dụng nhiều tài nguyên của các mô hình AI có thể hạn chế khả năng tiếp cận. Các lo ngại về đạo đức liên quan đến quyền riêng tư dữ liệu và thông tin sai lệch cũng tồn tại.

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.

GAYA ONE - Kết nối thế giới với tin tức | Gaya One