Новые независимые оценки показывают, что последние модели Meta Llama 4 — Maverick и Scout — хорошо справляются со стандартными тестами, но испытывают трудности со сложными задачами с длительным контекстом.
Согласно совокупному «индексу интеллекта» от Artificial Analysis, Llama 4 Maverick от Meta набрала 49 баллов, а Scout — 36. Это ставит Maverick выше Claude 3.7 Sonnet, но ниже Deepseek V3 0324. Scout работает наравне с GPT-4o-mini и превосходит Claude 3.5 Sonnet и Mistral Small 3.1.
Обе модели продемонстрировали стабильные результаты в общих логических, программистских и математических задачах, не показав существенных недостатков в какой-либо конкретной области.
Индекс интеллекта Artificial Analysis показывает относительную силу ведущих моделей ИИ в семи стандартизированных тестах. Deepseek лидирует с 53 баллами, GPT-4o и Llama-4-Maverick следуют за ним с 50 и 49 баллами соответственно.
Архитектура Maverick демонстрирует некоторую эффективность, используя лишь половину активных параметров Deepseek V3 (17 миллиардов против 37 миллиардов) и около 60 процентов от общего числа параметров (402 миллиарда против 671 миллиарда). В отличие от Deepseek V3, который обрабатывает только текст, Maverick может обрабатывать и изображения.
По данным искусственного анализа, средняя цена Maverick составляет 0,24 доллара за миллион входных/выходных токенов, а Scout — 0,15 доллара за миллион. Эти цены ниже даже у бюджетного Deepseek-V3 и в десять раз ниже, чем у GPT-4 от OpenAI.
Текущие цены на модели ИИ демонстрируют значительные различия между затратами на вход и выход, при этом новые модели Llama являются одними из самых доступных вариантов.
Запуск Llama 4 не обошёлся без споров. Несколько тестировщиков сообщают о значительных различиях в производительности между LMArena — бенчмарком, который активно продвигает Meta, — и производительностью модели на других платформах, даже при использовании рекомендуемой Meta системной подсказки.
Meta подтвердила, что для этого теста использовалась «экспериментальная версия чата» Maverick, и предложила возможную оптимизацию для людей, которые оценивают результаты, с помощью подробных, хорошо структурированных ответов с чётким форматированием.
Фактически, когда в LMArena активируется «Style Control» — метод, который отделяет качество контента от стиля презентации, — Llama 4 опускается со второго на пятое место. Эта система пытается изолировать качество контента, учитывая такие факторы, как длина ответа и форматирование. Стоит отметить, что другие разработчики моделей искусственного интеллекта, вероятно, используют аналогичные стратегии оптимизации тестов.
Llama 4 Maverick занимает 2-е место без Style Control, но опускается на 5-е место при включенном Style Control.
Наиболее серьёзные проблемы выявились в тестах, проведённых Fiction.live, которые оценивают понимание сложных текстов с помощью многоуровневых повествований.
Fiction.live утверждает, что их тесты лучше отражают реальные сценарии использования, измеряя фактическое понимание, а не просто возможности поиска. Модели должны отслеживать временные изменения, делать логические прогнозы на основе имеющейся информации и различать знания читателя и знания персонажа.
Производительность Llama 4 разочаровала в этих сложных тестах. Maverick не показал улучшений по сравнению с Llama 3.3 70B, а Scout показал «просто отвратительные» результаты.
Контраст разителен: в то время как Gemini 2.5 Pro сохраняет точность 90,6% при 120 000 жетонов, Maverick достигает лишь 28,1%, а Scout — 15,6%.
Тест на понимание длинного контекста в Fiction.Live показывает значительные различия в производительности между моделями.
Эти результаты ставят под сомнение заявления Meta о возможностях работы с длинным контекстом. Scout, который, как утверждается, может обрабатывать 10 миллионов токенов, с трудом справляется всего с 128 000. Maverick также не может стабильно обрабатывать документы с 128 000 токенов, но заявляет о контексте в один миллион токенов.
Исследования всё чаще показывают, что большие контекстные окна дают меньше преимуществ, чем ожидалось, поскольку моделям сложно оценивать всю доступную информацию одинаково. Работа с небольшими контекстными окнами размером до 128 КБ часто оказывается более эффективной, и пользователи обычно добиваются ещё лучших результатов, разбивая большие документы на главы, а не обрабатывая их все сразу.
В ответ на неоднозначные отзывы глава Meta по генеративному искусственному интеллекту Ахмад Аль-Дале объясняет, что ранние несоответствия отражают временные проблемы с реализацией, а не ограничения самих моделей.
«Поскольку мы запустили модели, как только они были готовы, мы ожидаем, что потребуется несколько дней, чтобы все общедоступные реализации были настроены», — пишет Аль-Дале. Он категорически отрицает обвинения в обучении тестового набора данных, заявляя, что «это просто неправда, и мы бы никогда так не поступили». «По нашему мнению, нестабильное качество, которое наблюдают пользователи, связано с необходимостью стабилизировать реализацию», — говорит Аль-Дале, подчёркивая, что различные сервисы всё ещё оптимизируют развёртывание Llama 4.
*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации
Источник
Источник: habr.com