KI-Code-Debugging bleibt eine Herausforderung: Microsoft Research hebt Einschränkungen von OpenAI- und Anthropic-Modellen hervor

Bearbeitet von: Veronika Nazarova

Eine aktuelle Studie von Microsoft Research zeigt, dass KI-Modelle von OpenAI und Anthropic immer noch Schwierigkeiten haben, Code effektiv zu debuggen. Die Studie, die im April 2025 durchgeführt wurde, bewertete neun KI-Modelle, darunter Claude 3.7 Sonnet, OpenAI's o1 und OpenAI's o3-mini, anhand des SWE-bench Lite Benchmarks mit Debugging-Tools. Claude 3.7 Sonnet erreichte mit 48,4 % die höchste Erfolgsquote. Die Forscher führten die suboptimalen Ergebnisse auf einen Mangel an Daten zurück, die sequentielles Entscheidungsverhalten darstellen. Microsoft Research stellt außerdem debug-gym vor, eine neuartige Umgebung, die entwickelt wurde, um KI-Codierungstools in der komplexen Kunst des Debuggens von Code zu schulen. Trotz der gemischten Ergebnisse unterstreicht die Forschung die anhaltende Notwendigkeit menschlicher Expertise in der Softwareentwicklung und das Potenzial für zukünftige Fortschritte bei den KI-Debugging-Fähigkeiten.

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?

Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.

GAYA ONE - Die Welt mit Nachrichten vereinen | Gaya One