Месяц назад LMSYS arena выпустили своего чатбота для VSCode и на его основе сделали арену оценки копайлотов для программирования. Вчера они опубликовали первые результаты, (как водится в LLM мире похоже они уже устарели 😊 т.к. вчера же вышли новые версии моделей от QWEN с высокими показателями), тем не менее результаты любопытные. Данных за месяц набралось не так много, но кажется это первое такое исследование с более-менее уверенными статистическими показателями, а не «Claude умнее GPT4o, я вам точно говорю».
На основе 10000+ голосований (примерно от 200-250 постоянных пользователей в день) появилась вот такая таблица:
Из интересных подробностей: чаще всего плагином пользовались питонисты, потом JS, потом все остальные. Медианный размер запросов с кодом в пять раз больше, чем текстовые запросы на обычной арене 530 токенов против 100.
Детали расчетов в блоге создателей
Традиционно — новости, обзоры и лекции об ИИ для разработчиков в нашем ТГ канале AI4Dev.
Источник: habr.com