Ai4Dev опубликовал рейтинг лучших LLM копайлотов для программирования

Телеграм-канал AI4Dev опубликовал результаты исследования команды Chatbot Arena (ранее LMSYS – платформы соревнований LLM в формате чатов). Месяц назад она выпустила плагин copilot для VSCode (один из известных редакторов кода от Microsoft). Внутри него встроена арена оценки различных LLM как копайлотов для программирования.

Работает это так:

пользователь в IDE вызывает плагин, чтобы дополнить определенный кусок кода,

плагин передает запрос паре случайно выбранных LLM и возвращает два обезличенных ответа,

пользователь вслепую выбирает один из двух вариантов ответа, который ему больше подходит,

в итоге пользователь получает нужный код (copilot работает бесплатно), а команда LMSYS ― статистику: ответы каких моделей предпочитают разработчики.

На днях команда Copilot Arena опубликовала первые результаты своего исследования. Как водится в мире ИИ, результаты уже слегка устарели ― в день публикации рейтинга вышли новые версии моделей QWEN, которые явно могли бы занять высокие позиции, но по очевидным причинам еще не успели в нем поучаствовать. Тем не менее результаты любопытные. Кажется, это первое исследование моделей (именно в режиме копайлотов) с относительно уверенными статистическими показателями и на настоящем коде.

На основе 10000+ запросов к копайлотам и соответственно голосований (примерно от 200-250 постоянных пользователей в день в течение месяца) удалось составить рейтинг из ТОП-9 моделей.

Из интересных подробностей: чаще всего плагином пользовались питонисты, JS, а только потом все остальные. Медианный размер запросов с кодом в пять раз больше, чем текстовые запросы на обычной арене — 530 токенов против 100.

С деталями расчетов можно ознакомиться в блоге создателей, а новости, обзоры и лекции об ИИ для разработчиков ― в ТГ-канале AI4Dev.

Источник: habr.com

0 0 голоса

Рейтинг новости

11778

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”