OpenAI 於 2025 年 5 月 13 日推出了 HealthBench,這是一個用於評估醫療保健領域人工智慧模型的新資料集。目標是創建一個 24/7 全天候的人工智慧醫生,可以透過口袋裝置存取。這項舉措旨在評估人工智慧提供可靠醫療建議的能力。 HealthBench 是一個開源資料集,它根據醫生編寫的評估標準來評估人工智慧模型。OpenAI 的 o3 推理模型以 60% 的得分領先。Grok 以 54% 的得分緊隨其後,Google 的 Gemini 2.5 Pro 得分為 52%。 24/7 全天候人工智慧醫生的願景可能會徹底改變醫療保健的可及性,尤其是在偏遠地區。然而,人工智慧模型資源密集型的性質可能會限制可及性。還存在關於資料隱私和錯誤資訊的倫理問題。
OpenAI 推出 HealthBench 以評估醫療保健領域的人工智慧模型
编辑者: Veronika Nazarova
发现错误或不准确的地方吗?
我们会尽快处理您的评论。