Debugowanie kodu AI wciąż stanowi wyzwanie: Microsoft Research podkreśla ograniczenia modeli OpenAI i Anthropic

Edytowane przez: Veronika Nazarova

Debugowanie kodu AI wciąż stanowi wyzwanie

Microsoft Research podkreśla ograniczenia modeli OpenAI i Anthropic

Niedawne badanie Microsoft Research ujawnia, że modele AI od OpenAI i Anthropic nadal napotykają trudności w skutecznym debugowaniu kodu. Badanie, przeprowadzone w kwietniu 2025 roku, oceniło dziewięć modeli AI, w tym Claude 3.7 Sonnet, o1 OpenAI i o3-mini OpenAI, przy użyciu benchmarku SWE-bench Lite z narzędziami do debugowania. Claude 3.7 Sonnet osiągnął najwyższy wskaźnik sukcesu na poziomie 48,4%.

Naukowcy przypisali słabe wyniki brakowi danych reprezentujących sekwencyjne zachowania decyzyjne. Microsoft Research wprowadza również debug-gym, nowe środowisko zaprojektowane do szkolenia narzędzi do kodowania AI w złożonej sztuce debugowania kodu. Pomimo mieszanych wyników, badania podkreślają ciągłą potrzebę ludzkiej wiedzy specjalistycznej w tworzeniu oprogramowania oraz potencjał przyszłego rozwoju możliwości debugowania AI.

Czy znalazłeś błąd lub niedokładność?

Rozważymy Twoje uwagi tak szybko, jak to możliwe.

GAYA ONE - Łączenie świata za pomocą wiadomości | Gaya One