人工智能代码调试仍面临挑战
微软研究强调 OpenAI 和 Anthropic 模型的局限性
最近一项微软研究表明,OpenAI 和 Anthropic 的人工智能模型在有效调试代码方面仍然面临挑战。该研究于 2025 年 4 月进行,使用带有调试工具的 SWE-bench Lite 基准评估了九种人工智能模型,包括 Claude 3.7 Sonnet、OpenAI 的 o1 和 OpenAI 的 o3-mini。Claude 3.7 Sonnet 实现了最高的成功率,为 48.4%。
研究人员将这种欠佳的性能归因于缺乏代表顺序决策行为的数据。微软研究院还在推出 debug-gym,这是一种新颖的环境,旨在训练人工智能编码工具掌握复杂的代码调试艺术。尽管结果喜忧参半,但该研究强调了软件开发中对人类专业知识的持续需求,以及人工智能调试能力未来发展的潜力。