Eine aktuelle Studie von Microsoft Research zeigt, dass KI-Modelle von OpenAI und Anthropic immer noch Schwierigkeiten haben, Code effektiv zu debuggen. Die Studie, die im April 2025 durchgeführt wurde, bewertete neun KI-Modelle, darunter Claude 3.7 Sonnet, OpenAI's o1 und OpenAI's o3-mini, anhand des SWE-bench Lite Benchmarks mit Debugging-Tools. Claude 3.7 Sonnet erreichte mit 48,4 % die höchste Erfolgsquote. Die Forscher führten die suboptimalen Ergebnisse auf einen Mangel an Daten zurück, die sequentielles Entscheidungsverhalten darstellen. Microsoft Research stellt außerdem debug-gym vor, eine neuartige Umgebung, die entwickelt wurde, um KI-Codierungstools in der komplexen Kunst des Debuggens von Code zu schulen. Trotz der gemischten Ergebnisse unterstreicht die Forschung die anhaltende Notwendigkeit menschlicher Expertise in der Softwareentwicklung und das Potenzial für zukünftige Fortschritte bei den KI-Debugging-Fähigkeiten.
KI-Code-Debugging bleibt eine Herausforderung: Microsoft Research hebt Einschränkungen von OpenAI- und Anthropic-Modellen hervor
Bearbeitet von: Veronika Nazarova
Weitere Nachrichten zu diesem Thema lesen:
Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?
Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.