OpenAI 推出 HealthBench 以評估醫療保健領域的人工智慧模型

22:13, 13 五月

编辑者： Veronika Radoslavskaya

OpenAI 於 2025 年 5 月 13 日推出了 HealthBench，這是一個用於評估醫療保健領域人工智慧模型的新資料集。目標是創建一個 24/7 全天候的人工智慧醫生，可以透過口袋裝置存取。這項舉措旨在評估人工智慧提供可靠醫療建議的能力。 HealthBench 是一個開源資料集，它根據醫生編寫的評估標準來評估人工智慧模型。OpenAI 的 o3 推理模型以 60% 的得分領先。Grok 以 54% 的得分緊隨其後，Google 的 Gemini 2.5 Pro 得分為 52%。 24/7 全天候人工智慧醫生的願景可能會徹底改變醫療保健的可及性，尤其是在偏遠地區。然而，人工智慧模型資源密集型的性質可能會限制可及性。還存在關於資料隱私和錯誤資訊的倫理問題。

閱讀更多有關此主題的新聞：

16 七月

Riff 推出：AI 助力音樂編輯，科技革新還是炒作？

16 七月

亞馬遜 Bedrock AgentCore 啟動：AI 代理開發的新時代

16 七月

Google Discover 的 AI 摘要：事實查核與發布商的擔憂

发现错误或不准确的地方吗？

我们会尽快处理您的评论。