Базовая модель AI Maverick от Meta* уступает конкурентам в популярном бенчмарке

Ранее на этой неделе Meta* попала в горячую воду из-за использования экспериментальной, невыпущенной версии своей модели Llama 4 Maverick для достижения высокого балла в краудсорсинговом бенчмарке LM Arena. Инцидент побудил разработчиков LM Arena извиниться, изменить свою политику и оценить немодифицированный Maverick.

Оказывается, это не очень-то конкурентоспособно. Немодифицированный Maverick, «Llama-4-Maverick-17B-128E-Instruct», был оценен ниже моделей, включая OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet и Google Gemini 1.5 Pro по состоянию на пятницу. Многим из этих моделей уже несколько месяцев.

Почему плохая производительность? Экспериментальный Maverick от Meta*, Llama-4-Maverick-03-26-Experimental, был «оптимизирован для разговорности», пояснила компания в диаграмме, опубликованной в прошлую субботу. Эти оптимизации, очевидно, хорошо сыграли на LM Arena, где оценщики-люди сравнивают результаты моделей и выбирают ту, которая им больше нравится.

Как мы уже писали ранее , по разным причинам LM Arena никогда не была самым надежным средством измерения производительности модели AI. Тем не менее, подгонка модели под эталон — помимо того, что это вводит в заблуждение — усложняет для разработчиков задачу точного прогнозирования того, насколько хорошо модель будет работать в разных контекстах.

Представитель Meta* в своем заявлении сообщил TechCrunch, что Meta* экспериментирует со «всеми типами пользовательских вариантов».

«Llama-4-Maverick-03-26-Experimental — это оптимизированная для чата версия, с которой мы экспериментировали, и которая также хорошо работает на LM Arena», — сказал представитель.

«Теперь мы выпустили нашу версию с открытым исходным кодом и посмотрим, как разработчики настраивают Llama 4 для своих собственных вариантов использования. Мы с нетерпением ждем, что они создадут, и с нетерпением ждем их отзывов».

Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии