Первое сравнение AI Copilotов — Arena результаты 10000 голосов

Месяц назад LMSYS arena выпустили своего чатбота для VSCode и на его основе сделали арену оценки копайлотов для программирования. Вчера они опубликовали первые результаты, (как водится в LLM мире похоже они уже устарели 😊 т.к. вчера же вышли новые версии моделей от QWEN с высокими показателями), тем не менее результаты любопытные. Данных за месяц набралось не так много, но кажется это первое такое исследование с более-менее уверенными статистическими показателями, а не «Claude умнее GPT4o, я вам точно говорю».

На основе 10000+ голосований (примерно от 200-250 постоянных пользователей в день) появилась вот такая таблица:

Из интересных подробностей: чаще всего плагином пользовались питонисты, потом JS, потом все остальные. Медианный размер запросов с кодом в пять раз больше, чем текстовые запросы на обычной арене 530 токенов против 100.

Детали расчетов в блоге создателей

Традиционно — новости, обзоры и лекции об ИИ для разработчиков в нашем ТГ канале AI4Dev.

Источник: habr.com

0 0 голоса

Рейтинг новости

12366

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”