OpenAI 推出 HealthBench 以评估医疗保健领域的人工智能模型

编辑者: Veronika Nazarova

OpenAI 于 2025 年 5 月 13 日推出了 HealthBench,这是一个用于评估医疗保健领域人工智能模型的新数据集。目标是创建一个 24/7 全天候的人工智能医生,可以通过口袋设备访问。这项举措旨在评估人工智能提供可靠医疗建议的能力。 HealthBench 是一个开源数据集,它根据医生编写的评估标准来评估人工智能模型。OpenAI 的 o3 推理模型以 60% 的得分领先。Grok 以 54% 的得分紧随其后,谷歌的 Gemini 2.5 Pro 得分为 52%。 24/7 全天候人工智能医生的愿景可能会彻底改变医疗保健的可及性,尤其是在偏远地区。然而,人工智能模型资源密集型的性质可能会限制可及性。还存在关于数据隐私和错误信息的伦理问题。

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。

GAYA ONE - 通过新闻团结世界 | Gaya One