Базовая модель AI Maverick от Meta* уступает конкурентам в популярном бенчмарке

Ранее на этой неделе Meta* попала в горячую воду из-за использования экспериментальной, невыпущенной версии своей модели Llama 4 Maverick для достижения высокого балла в краудсорсинговом бенчмарке LM Arena. Инцидент побудил разработчиков LM Arena извиниться, изменить свою политику и оценить немодифицированный Maverick.

Оказывается, это не очень-то конкурентоспособно. Немодифицированный Maverick, «Llama-4-Maverick-17B-128E-Instruct», был оценен ниже моделей, включая OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet и Google Gemini 1.5 Pro по состоянию на пятницу. Многим из этих моделей уже несколько месяцев.

Почему плохая производительность? Экспериментальный Maverick от Meta*, Llama-4-Maverick-03-26-Experimental, был «оптимизирован для разговорности», пояснила компания в диаграмме, опубликованной в прошлую субботу. Эти оптимизации, очевидно, хорошо сыграли на LM Arena, где оценщики-люди сравнивают результаты моделей и выбирают ту, которая им больше нравится.

Как мы уже писали ранее , по разным причинам LM Arena никогда не была самым надежным средством измерения производительности модели AI. Тем не менее, подгонка модели под эталон — помимо того, что это вводит в заблуждение — усложняет для разработчиков задачу точного прогнозирования того, насколько хорошо модель будет работать в разных контекстах.

Представитель Meta* в своем заявлении сообщил TechCrunch, что Meta* экспериментирует со «всеми типами пользовательских вариантов».

«Llama-4-Maverick-03-26-Experimental — это оптимизированная для чата версия, с которой мы экспериментировали, и которая также хорошо работает на LM Arena», — сказал представитель.

«Теперь мы выпустили нашу версию с открытым исходным кодом и посмотрим, как разработчики настраивают Llama 4 для своих собственных вариантов использования. Мы с нетерпением ждем, что они создадут, и с нетерпением ждем их отзывов».

Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”