Передовые ИИ закрывают меньше четверти задач в программировании

Компания Scale AI представила бенчмарк SWE-BENCH PRO — он основан на популярном тест SWE-BENCH, но заточен для проверки возможностей ИИ-агентов в условиях, приближенных к реальной разработке. В бенчмарк вошли 1 865 задач из 41 репозитория в трех категориях: открытая (731 задача) из проектов со строгими лицензиями (например, GPL), коммерческая (276 задач) из закрытых кодовых баз стартапов и закрытый поднабор (858 задач), зарезервированный для защиты от «подглядывания» в обучении. Такой подход позволяет проверить модели на задачах, которые они точно не могли «подсмотреть» заранее.

Главное отличие SWE-BENCH PRO в уровне сложности. В среднем решение требует изменения 107 строк кода в четырех файлах, а в некоторых случаях — несколько сотен строк сразу. Это ближе к реальным сценариям сопровождения и развития больших проектов.

Для оценки использовался единый агентный шаблон SWE-Agent с фиксированными настройками и метрикой — процент задач, решённых с первой попытки (Pass@1). Каждая модель могла сделать до 200 шагов (действий) на задачу. Результаты приведены по состоянию на 18 сентября 2025 года.

Результаты с разбивкой по языкам программирования

Даже самые сильные модели показали ограниченный успех. На открытой части набора лидером стал GPT-5 с результатом 23,3%, за ним — Claude Opus 4.1 (22,7%). На коммерческой части набора лучший показатель составил лишь 17,8% (Opus 4.1). При этом заметны различия по языкам: лучше всего модели справлялись с задачами на Python и Go, а хуже — на JavaScript и TypeScript.

Авторы исследования отмечают, что SWE-BENCH PRO демонстрирует критический разрыв между возможностями современных ИИ-агентов и требованиями реальной разработки. Если на предыдущих тестах лучшие системы показывали более 70% успешных решений, то новый бенчмарк фиксирует уровень около 18–23%. Исследователи считают, что именно такие задачи задают более честную «базовую планку» для оценки прогресса и позволяют направить развитие моделей в сторону действительно надежных и автономных помощников.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”