Первое сравнение AI Copilotов — Arena результаты 10000 голосов

Месяц назад LMSYS arena  выпустили своего чатбота для VSCode и на его основе сделали арену оценки копайлотов для программирования.  Вчера они опубликовали первые результаты, (как водится в  LLM мире похоже они уже устарели 😊 т.к. вчера же вышли новые версии моделей от QWEN  с высокими показателями), тем не менее результаты любопытные. Данных за месяц набралось не так много, но кажется это первое такое исследование с более-менее уверенными статистическими показателями, а не «Claude умнее GPT4o, я вам точно говорю».

На основе 10000+ голосований (примерно от 200-250 постоянных пользователей в день) появилась вот такая таблица:

Из интересных подробностей: чаще всего плагином пользовались питонисты,  потом JS, потом все остальные. Медианный размер запросов с кодом в пять раз больше, чем текстовые запросы на обычной арене 530 токенов против 100.

Детали расчетов в блоге создателей

Традиционно — новости, обзоры и лекции об ИИ для разработчиков в нашем ТГ канале AI4Dev.

Источник: habr.com

0 0 голоса
Рейтинг новости
328
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии