OpenAI 推出 HealthBench 以评估医疗保健领域的人工智能模型

22:13, 13 五月

编辑者： Veronika Radoslavskaya

OpenAI 于 2025 年 5 月 13 日推出了 HealthBench，这是一个用于评估医疗保健领域人工智能模型的新数据集。目标是创建一个 24/7 全天候的人工智能医生，可以通过口袋设备访问。这项举措旨在评估人工智能提供可靠医疗建议的能力。 HealthBench 是一个开源数据集，它根据医生编写的评估标准来评估人工智能模型。OpenAI 的 o3 推理模型以 60% 的得分领先。Grok 以 54% 的得分紧随其后，谷歌的 Gemini 2.5 Pro 得分为 52%。 24/7 全天候人工智能医生的愿景可能会彻底改变医疗保健的可及性，尤其是在偏远地区。然而，人工智能模型资源密集型的性质可能会限制可及性。还存在关于数据隐私和错误信息的伦理问题。

通知中心

OpenAI 推出 HealthBench 以评估医疗保健领域的人工智能模型

阅读更多关于该主题的新闻：