AI выигрывает 40% от бюджета в миллион долларов в последнем тесте кодирования OpenAI

Новый бенчмарк от OpenAI раскрывает как перспективы, так и ограничения AI в разработке ПО. Хотя модели AI могут справиться со многими задачами программирования, они все еще испытывают трудности со сложными программными проектами, требующими глубокого понимания и комплексных решений. Тест SWE-Lancer от OpenAI проверил возможности моделей AI с использованием 1400 реальных заданий от Upwork, что составляет $1 млн. стоимости разработки.

Оценка была сосредоточена на двух ключевых областях: непосредственные задачи разработки и решения по управлению проектами. Задачи разработки варьировались от простых исправлений ошибок за 50 долларов до сложных реализаций функций за 32 000 долларов. На более простом конце AI решал такие проблемы, как исправление избыточных вызовов API. Более сложные задачи включали создание кроссплатформенной функциональности воспроизведения видео для веб-приложений, iOS, Android и настольных приложений. Задача среднего уровня за 1 000 долларов включала устранение несоответствий между изображениями аватаров на разных страницах.

Тест также проверял способность AI оценивать различные решения, предлагаемые разработчиками-людьми. Например, при рассмотрении предложений по функции вставки изображений iOS AI должен был оценить несколько факторов: насколько хорошо каждое решение обрабатывало различные форматы буфера обмена, минимизировало ли оно запросы разрешений и насколько близко оно соответствовало стандартному поведению iOS.

Тест OpenAI охватывает шесть основных областей разработки программного обеспечения. Левая сторона показывает технические проблемы, такие как логика приложения и функции сервера, в то время как правая сторона фокусируется на улучшении качества за счет исправления ошибок и улучшения функций. Каждая категория включает реальные примеры из реальных проектов разработки.

OpenAI использовала сквозное тестирование, разработанное и трижды проверенное опытными разработчиками. В отличие от простых модульных тестов, эти симуляции охватывали полные рабочие процессы пользователя — например, тестирование ошибки аватара требовало входа в систему, загрузки фотографий профиля и взаимодействия между аккаунтами.

Самая производительная модель, Claude 3.5 Sonnet, успешно справилась с 26,2% задач кодирования и 44,9% решений по управлению проектами. Хотя это и не соответствует человеческим возможностям, это представляет значительный потенциал для заработка.

Только на общедоступном наборе данных SWE-Lancer Diamond Claude 3.5 Sonnet мог бы заработать $208 050 из доступных проектов стоимостью $500 800. При масштабировании до полного набора данных стоимостью в миллион долларов производительность AI предполагает, что он может справиться с задачами стоимостью более $400 000 — почти половина общего бюджета проекта.

В ходе детального анализа выявился один из основных недостатков: хотя модели AI часто могли выявлять проблемные участки кода, им часто было трудно понять основные причины и разработать комплексные исправления.

Результаты бенчмарков показывают, что «универсальный» Claude 3.5 Sonnet от Anthropic превосходит специализированную модель кодирования OpenAI o1 во всех тестовых категориях. Предстоящая модель o3 от OpenAI, которая должна быть запущена с GPT-5, не была включена в эту оценку.

Для продвижения исследований в области автоматизированной разработки программного обеспечения OpenAI выпустила набор данных SWE-Lancer Diamond и образ Docker в качестве открытого исходного кода на GitHub. Этот открытый исходный код позволяет исследователям и компаниям сравнивать свои собственные модели кодирования с этими стандартизированными тестами, в частности, специально разработанными для задач разработки программного обеспечения.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии