Налагодження коду ШІ все ще залишається проблемою
Дослідження Microsoft підкреслює обмеження моделей OpenAI та Anthropic
Нещодавнє дослідження Microsoft Research показує, що моделі ШІ від OpenAI та Anthropic все ще стикаються з проблемами в ефективному налагодженні коду. Дослідження, проведене у квітні 2025 року, оцінювало дев'ять моделей ШІ, включаючи Claude 3.7 Sonnet, o1 від OpenAI та o3-mini від OpenAI, використовуючи еталон SWE-bench Lite з інструментами налагодження. Claude 3.7 Sonnet досяг найвищого рівня успішності – 48,4%.
Дослідники пояснили субоптимальну продуктивність браком даних, що представляють поведінку послідовного прийняття рішень. Microsoft Research також представляє debug-gym, нове середовище, розроблене для навчання інструментів кодування ШІ складному мистецтву налагодження коду. Незважаючи на неоднозначні результати, дослідження підкреслює постійну потребу в людській експертизі в розробці програмного забезпечення та потенціал для майбутніх досягнень у можливостях налагодження ШІ.