Ранее на этой неделе Meta* попала в горячую воду из-за использования экспериментальной, невыпущенной версии своей модели Llama 4 Maverick для достижения высокого балла в краудсорсинговом бенчмарке LM Arena. Инцидент побудил разработчиков LM Arena извиниться, изменить свою политику и оценить немодифицированный Maverick.
Оказывается, это не очень-то конкурентоспособно. Немодифицированный Maverick, «Llama-4-Maverick-17B-128E-Instruct», был оценен ниже моделей, включая OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet и Google Gemini 1.5 Pro по состоянию на пятницу. Многим из этих моделей уже несколько месяцев.
Почему плохая производительность? Экспериментальный Maverick от Meta*, Llama-4-Maverick-03-26-Experimental, был «оптимизирован для разговорности», пояснила компания в диаграмме, опубликованной в прошлую субботу. Эти оптимизации, очевидно, хорошо сыграли на LM Arena, где оценщики-люди сравнивают результаты моделей и выбирают ту, которая им больше нравится.
Как мы уже писали ранее , по разным причинам LM Arena никогда не была самым надежным средством измерения производительности модели AI. Тем не менее, подгонка модели под эталон — помимо того, что это вводит в заблуждение — усложняет для разработчиков задачу точного прогнозирования того, насколько хорошо модель будет работать в разных контекстах.
Представитель Meta* в своем заявлении сообщил TechCrunch, что Meta* экспериментирует со «всеми типами пользовательских вариантов».
«Llama-4-Maverick-03-26-Experimental — это оптимизированная для чата версия, с которой мы экспериментировали, и которая также хорошо работает на LM Arena», — сказал представитель.
«Теперь мы выпустили нашу версию с открытым исходным кодом и посмотрим, как разработчики настраивают Llama 4 для своих собственных вариантов использования. Мы с нетерпением ждем, что они создадут, и с нетерпением ждем их отзывов».
Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации
Источник
Источник: habr.com