TL;DR
Code Arena — новый бенчмарк для ИИ, который пишет код как агент-разработчик: не один файл, а полноценные веб-приложения с итерациями, правками и деплоем в живом окружении.
Модели работают в изолированных сэндбоксах через структурированные tool calls (create_file, edit_file, read_file, run_command), всё логируется: промпты, изменения, рендер, снапшоты проекта. Сессии можно восстанавливать и шарить по ссылке.
Оценка строится не только на «прошёл тесты / не прошёл», а по трём осям: функциональность, удобство и соответствие задумке. Вывод делают люди в парных сравнениях, а результаты агрегируются с учётом доверительных интервалов, разброса и согласия между оценщиками.
Code Arena полностью перерабатывает старый WebDev Arena: новый лидерборд (WebDev V2) запускается с нуля, без смешивания данных, с упором на воспроизводимость, прозрачность и bias-аудиты при любых изменениях платформы.
В планах — поддержка многофайловых React-приложений, больших репозиториев и мультимодальных агентных сценариев, чтобы тестировать ИИ в условиях, максимально похожих на реальную работу команды разработки.
Индустрия ИИ уже доросла до момента, когда вопрос «может ли модель писать код?» звучит устаревше. Гораздо важнее другое: «насколько хорошо модель способна собрать реальное приложение от первой формулировки задачи до работающего интерфейса?»
Команда платформы Arena отвечает на этот вызов запуском Code Arena — новой системы оценки ИИ-моделей, которые пишут и правят код как агенты-разработчики, а не как генераторы одиночных функций.
Что не так с классическими бенчмарками
Традиционная схема оценки выглядит просто: модели дают задачу, она выдаёт код, код компилируется и прогоняется через набор заранее подготовленных тестов. Если всё прошло — модель «молодец».
Но реальная разработка на это совсем не похожа. Настоящий процесс — это итерации:план → набросок решения → запуск → отладка → рефакторинг → доработка по новым требованиям.
Корректность по тестам — лишь один слой. Важны ещё архитектура, удобство интерфейса, способность модели исправлять собственные ошибки, работать с несколькими файлами и зависимостями. Именно это и пытается измерять Code Arena.
Как устроена Code Arena
Code Arena даёт моделям не «одиночный промпт», а полноценное рабочее окружение, в котором они действуют как агенты. Внутри контролируемого, изолированного сэндбокса модель может:
выполнять структурированные вызовы инструментов (create_file, edit_file, read_file, run_command), создавая и изменяя файлы и запуская код;
итеративно переписывать и улучшать код в несколько шагов;
собирать целые веб-приложения с полноценным деревом файлов (HTML, CSS, JS).
Каждое действие логируется: промпты, изменения файлов, запуск, рендер. Сессии сохраняются и могут быть восстановлены позже, что позволяет вернуться к определённой генерации, показать её коллеге или использовать как реперную точку для сравнения моделей.
Фронтенд Code Arena позволяет одновременно смотреть исходники (через CodeMirror 6) и живой превью: приложение можно кликать и тестировать прямо во время генерации, пока модель достраивает функциональность.
Оценка как воспроизводимый эксперимент
Каждая оценка в Code Arena — это не просто «ответ модели», а целый эксперимент с полным трейсом:
Формулируется задача, например: «Сделать markdown-редактор с тёмной темой».
Модель планирует действия, используя агентный режим и tool calls.
Пошагово создаёт и правит файлы, собирает приложение.
Все версии и снапшоты проекта сохраняются в объектном хранилище (Cloudflare R2) и привязываются к базе данных Arena.
Приложение рендерится в браузере: можно изучать и код, и поведение.
Дальше подключаются люди: они сравнивают решения попарно и голосуют, какое лучше.
Оценка строится по трём осям, похожим на то, как судит реальный разработчик:
функциональность — делает ли приложение то, что описано в задании;
удобство — насколько интерфейс понятен, отзывчив, не «мешает жить»;
соответствие задумке — насколько реализация попадает в дизайн и поведение, описанные в промпте.
Каждое голосование сохраняется вместе с контекстом: какая модель, какая версия, сколько заняла генерация, в каких условиях запускалась. Это превращает рейтинг моделей в набор воспроизводимых измерений, а не в чёрный ящик.
От WebDev Arena к Code Arena
До этого у Arena уже был WebDev Arena — первый крупный бенчмарк с участием людей, где модели собирали веб-приложения, а разработчики голосовали за лучшие решения.
С ростом нагрузки вскрылись ограничения первого поколения: сложно держать строгую воспроизводимость, тяжело контролировать методологию, UI-изменения начинали незаметно влиять на паттерны голосования.
Code Arena — не косметический апдейт, а полный пересбор основы.
Новый лидерборд запускается «с нуля»: результаты из WebDev Arena не переносятся и не смешиваются, чтобы не склеивать в одну таблицу оценки, сделанные по разным правилам, в разных окружениях и с разной статистикой. Старый WebDev-лидерборд остаётся как исторический артефакт, а новый (WebDev V2) и Code Arena задают стандарт вперёд.
Научный подход к оценке
В центре Code Arena — идея, что каждая цифра в рейтинге должна быть объяснимой. Для этого платформа соблюдает несколько принципов.
Во-первых, в основе всех оценок лежит человеческое решение. Это не автоматическая метрика «где-то в фоне»: реальные участники сравнивают живые приложения и выбирают, какое лучше справилось с задачей.
Во-вторых, любая метрика привязана к данным: к ней можно «просверлиться» до конкретных голосований, стоимости запуска, латентности, версий моделей и окружения. Оценка не отрывается от своего происхождения.
В-третьих, система честно показывает неопределённость. Вместо одной красивой цифры качества публикуются доверительные интервалы, разброс, вариативность. Учитывается согласие между оценщиками (inter-rater reliability), чтобы видно было, где модель стабильно хороша, а где оценки сильно колеблются.
Отдельный пласт — борьба со смещениями. Каждый раз, когда меняется интерфейс или процесс взаимодействия с платформой, это может незаметно сдвинуть поведение голосующих. Поэтому перед вводом изменений Arena прогоняет bias-аудиты: замеряет, как именно меняется распределение голосов, и компенсирует эти эффекты перед обновлением лидерборда.
Сообщество в роли соавтора
Code Arena опирается на живое сообщество разработчиков, исследователей и энтузиастов вокруг Arena.
Участники не только голосуют за лучшие решения, но и:
предлагают новые задачи и сценарии;
помогают замечать аномалии в поведении моделей;
экспериментируют с нестандартными кейсами использования.
Вокруг платформы растёт Arena Creator Community — люди, которые строят свои проекты, обзоры и эксперименты поверх Code Arena, превращая оценку ИИ-моделей из закрытого процесса в открытую коллективную деятельность.
Куда всё движется дальше
Запуск Code Arena — не конечная точка, а старт новой итерации. В планах:
поддержка многофайловых React-приложений и структурированных репозиториев вместо простых прототипов «в одном файле»;
изолированные песочницы для более крупных проектов;
расширение агентных сценариев и подключение мультимодальных входов.
Идея проста: если ИИ-модели всё чаще выступают как полноценные участники команды разработки, оценивать их нужно в условиях, максимально близких к реальному продакшену. Code Arena делает шаг именно в эту сторону — от искусственных задачек с тестами к живым приложениям, которые можно открыть в браузере и попробовать руками.
Источник
Разработка и эксплуатация AI: полный курс для профессионаловИсточник: habr.com