Code Arena: живой бенчмарк для ИИ-разработчиков вместо статических тестов

TL;DR

Code Arena — новый бенчмарк для ИИ, который пишет код как агент-разработчик: не один файл, а полноценные веб-приложения с итерациями, правками и деплоем в живом окружении.

Модели работают в изолированных сэндбоксах через структурированные tool calls (create_file, edit_file, read_file, run_command), всё логируется: промпты, изменения, рендер, снапшоты проекта. Сессии можно восстанавливать и шарить по ссылке.

Оценка строится не только на «прошёл тесты / не прошёл», а по трём осям: функциональность, удобство и соответствие задумке. Вывод делают люди в парных сравнениях, а результаты агрегируются с учётом доверительных интервалов, разброса и согласия между оценщиками.

Code Arena полностью перерабатывает старый WebDev Arena: новый лидерборд (WebDev V2) запускается с нуля, без смешивания данных, с упором на воспроизводимость, прозрачность и bias-аудиты при любых изменениях платформы.

В планах — поддержка многофайловых React-приложений, больших репозиториев и мультимодальных агентных сценариев, чтобы тестировать ИИ в условиях, максимально похожих на реальную работу команды разработки.

Индустрия ИИ уже доросла до момента, когда вопрос «может ли модель писать код?» звучит устаревше. Гораздо важнее другое: «насколько хорошо модель способна собрать реальное приложение от первой формулировки задачи до работающего интерфейса?»

Команда платформы Arena отвечает на этот вызов запуском Code Arena — новой системы оценки ИИ-моделей, которые пишут и правят код как агенты-разработчики, а не как генераторы одиночных функций.

Что не так с классическими бенчмарками

Традиционная схема оценки выглядит просто: модели дают задачу, она выдаёт код, код компилируется и прогоняется через набор заранее подготовленных тестов. Если всё прошло — модель «молодец».

Но реальная разработка на это совсем не похожа. Настоящий процесс — это итерации:план → набросок решения → запуск → отладка → рефакторинг → доработка по новым требованиям.

Корректность по тестам — лишь один слой. Важны ещё архитектура, удобство интерфейса, способность модели исправлять собственные ошибки, работать с несколькими файлами и зависимостями. Именно это и пытается измерять Code Arena.

Как устроена Code Arena

Code Arena даёт моделям не «одиночный промпт», а полноценное рабочее окружение, в котором они действуют как агенты. Внутри контролируемого, изолированного сэндбокса модель может:

выполнять структурированные вызовы инструментов (create_file, edit_file, read_file, run_command), создавая и изменяя файлы и запуская код;

итеративно переписывать и улучшать код в несколько шагов;

собирать целые веб-приложения с полноценным деревом файлов (HTML, CSS, JS).

Каждое действие логируется: промпты, изменения файлов, запуск, рендер. Сессии сохраняются и могут быть восстановлены позже, что позволяет вернуться к определённой генерации, показать её коллеге или использовать как реперную точку для сравнения моделей.

Фронтенд Code Arena позволяет одновременно смотреть исходники (через CodeMirror 6) и живой превью: приложение можно кликать и тестировать прямо во время генерации, пока модель достраивает функциональность.

Оценка как воспроизводимый эксперимент

Каждая оценка в Code Arena — это не просто «ответ модели», а целый эксперимент с полным трейсом:

Формулируется задача, например: «Сделать markdown-редактор с тёмной темой».

Модель планирует действия, используя агентный режим и tool calls.

Пошагово создаёт и правит файлы, собирает приложение.

Все версии и снапшоты проекта сохраняются в объектном хранилище (Cloudflare R2) и привязываются к базе данных Arena.

Приложение рендерится в браузере: можно изучать и код, и поведение.

Дальше подключаются люди: они сравнивают решения попарно и голосуют, какое лучше.

Оценка строится по трём осям, похожим на то, как судит реальный разработчик:

функциональность — делает ли приложение то, что описано в задании;

удобство — насколько интерфейс понятен, отзывчив, не «мешает жить»;

соответствие задумке — насколько реализация попадает в дизайн и поведение, описанные в промпте.

Каждое голосование сохраняется вместе с контекстом: какая модель, какая версия, сколько заняла генерация, в каких условиях запускалась. Это превращает рейтинг моделей в набор воспроизводимых измерений, а не в чёрный ящик.

От WebDev Arena к Code Arena

До этого у Arena уже был WebDev Arena — первый крупный бенчмарк с участием людей, где модели собирали веб-приложения, а разработчики голосовали за лучшие решения.

С ростом нагрузки вскрылись ограничения первого поколения: сложно держать строгую воспроизводимость, тяжело контролировать методологию, UI-изменения начинали незаметно влиять на паттерны голосования.

Code Arena — не косметический апдейт, а полный пересбор основы.

Новый лидерборд запускается «с нуля»: результаты из WebDev Arena не переносятся и не смешиваются, чтобы не склеивать в одну таблицу оценки, сделанные по разным правилам, в разных окружениях и с разной статистикой. Старый WebDev-лидерборд остаётся как исторический артефакт, а новый (WebDev V2) и Code Arena задают стандарт вперёд.

Научный подход к оценке

В центре Code Arena — идея, что каждая цифра в рейтинге должна быть объяснимой. Для этого платформа соблюдает несколько принципов.

Во-первых, в основе всех оценок лежит человеческое решение. Это не автоматическая метрика «где-то в фоне»: реальные участники сравнивают живые приложения и выбирают, какое лучше справилось с задачей.

Во-вторых, любая метрика привязана к данным: к ней можно «просверлиться» до конкретных голосований, стоимости запуска, латентности, версий моделей и окружения. Оценка не отрывается от своего происхождения.

В-третьих, система честно показывает неопределённость. Вместо одной красивой цифры качества публикуются доверительные интервалы, разброс, вариативность. Учитывается согласие между оценщиками (inter-rater reliability), чтобы видно было, где модель стабильно хороша, а где оценки сильно колеблются.

Отдельный пласт — борьба со смещениями. Каждый раз, когда меняется интерфейс или процесс взаимодействия с платформой, это может незаметно сдвинуть поведение голосующих. Поэтому перед вводом изменений Arena прогоняет bias-аудиты: замеряет, как именно меняется распределение голосов, и компенсирует эти эффекты перед обновлением лидерборда.

Сообщество в роли соавтора

Code Arena опирается на живое сообщество разработчиков, исследователей и энтузиастов вокруг Arena.

Участники не только голосуют за лучшие решения, но и:

предлагают новые задачи и сценарии;

помогают замечать аномалии в поведении моделей;

экспериментируют с нестандартными кейсами использования.

Вокруг платформы растёт Arena Creator Community — люди, которые строят свои проекты, обзоры и эксперименты поверх Code Arena, превращая оценку ИИ-моделей из закрытого процесса в открытую коллективную деятельность.

Куда всё движется дальше

Запуск Code Arena — не конечная точка, а старт новой итерации. В планах:

поддержка многофайловых React-приложений и структурированных репозиториев вместо простых прототипов «в одном файле»;

изолированные песочницы для более крупных проектов;

расширение агентных сценариев и подключение мультимодальных входов.

Идея проста: если ИИ-модели всё чаще выступают как полноценные участники команды разработки, оценивать их нужно в условиях, максимально близких к реальному продакшену. Code Arena делает шаг именно в эту сторону — от искусственных задачек с тестами к живым приложениям, которые можно открыть в браузере и попробовать руками.

Источник

Разработка и эксплуатация AI: полный курс для профессионаловИсточник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”