Компания Scale AI представила бенчмарк SWE-BENCH PRO — он основан на популярном тест SWE-BENCH, но заточен для проверки возможностей ИИ-агентов в условиях, приближенных к реальной разработке. В бенчмарк вошли 1 865 задач из 41 репозитория в трех категориях: открытая (731 задача) из проектов со строгими лицензиями (например, GPL), коммерческая (276 задач) из закрытых кодовых баз стартапов и закрытый поднабор (858 задач), зарезервированный для защиты от «подглядывания» в обучении. Такой подход позволяет проверить модели на задачах, которые они точно не могли «подсмотреть» заранее.
Главное отличие SWE-BENCH PRO в уровне сложности. В среднем решение требует изменения 107 строк кода в четырех файлах, а в некоторых случаях — несколько сотен строк сразу. Это ближе к реальным сценариям сопровождения и развития больших проектов.
Для оценки использовался единый агентный шаблон SWE-Agent с фиксированными настройками и метрикой — процент задач, решённых с первой попытки (Pass@1). Каждая модель могла сделать до 200 шагов (действий) на задачу. Результаты приведены по состоянию на 18 сентября 2025 года.
Результаты с разбивкой по языкам программирования
Даже самые сильные модели показали ограниченный успех. На открытой части набора лидером стал GPT-5 с результатом 23,3%, за ним — Claude Opus 4.1 (22,7%). На коммерческой части набора лучший показатель составил лишь 17,8% (Opus 4.1). При этом заметны различия по языкам: лучше всего модели справлялись с задачами на Python и Go, а хуже — на JavaScript и TypeScript.
Авторы исследования отмечают, что SWE-BENCH PRO демонстрирует критический разрыв между возможностями современных ИИ-агентов и требованиями реальной разработки. Если на предыдущих тестах лучшие системы показывали более 70% успешных решений, то новый бенчмарк фиксирует уровень около 18–23%. Исследователи считают, что именно такие задачи задают более честную «базовую планку» для оценки прогресса и позволяют направить развитие моделей в сторону действительно надежных и автономных помощников.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com