Бенчмарки Lllama-4, предположительно — скам на самом высоком уровне

Буквально пару дней назад, комада Llama сообщила о появлении трех новых нейронок под общим зонтиком Llama-4: быстрый Scout с контекстом 10 миллионов токенов. Медленный Maverick с контекстом 1 миллион, но 128 экспертами под капотом. И гигантский Behemoth, который использовался как учитель для предыдущих двух.

10 миллионов токенов и нахаляву — это, мягко говоря, дофига. Можно закрыть глаза и представить, как где-то там в далеком Сан-Франциско, разработчики Gemini Pro начинают искать себе новую работу сантехниками, электриками и ассенизаторами.

Но вот прошла пара дней, и Царь оказался ненастоящий.

Похоже, бенчмарки Llama-4 оказались простой бытовой ложью. Никаких 10 миллионов токенов контекста. Уже на контексте в 120к производительность обнуляется.

В Твиттере помогли найти хороший пост на форуме, на чистом китайском языке. С изобретением Claude Sonnet 3.7, все мы теперь эксперты-лингвисты, поэтому вот вам краткая выжимка:

Штатный сотрудник Meta GenAI решил уволиться, потому что заранее понимал, что бенчмарки Llama-4 — голимый скам. SOTA они не достигли, а руководство предложило подмешать в тестовые наборы данные из пред-трена, чтобы получить графики, похожие на правду. Самое высшее руководство объявило, что если до конца апреля они не достигнут SOTA, т.е. не станут лучшими в индустрии, то сотрудникам GenAI поотрывают головы.

Человек, написавший этот слив работает в академической среде, где репутация — это главное. Особенно, в Китае, где стартаперские круги целиком строятся на репутации. Поэтому он решил спрыгнуть с тонущей лодки первым. В увольнительной он указал, что запрещает использовать свою фамилию в официальной техкарте модели на Гитхабе.

А сразу за ним уволился VP of AI (читай — продакт-менеджер) этого продукта.

Чем-то мне это напоминает мою историю. Когда я увольнялся из одной геймдев-конторы, прочтав увольнительную, директор продукта только улыбнулся и не потребовал никаких объяснений. Через две недели директор тоже уволился. Мы до сих пор иногда общаемся, когда я залетаю в Новосибирск.

Из хорошего: контекст 120к — это замечательный результат. Совершенно нечего этого стыдиться, надо этим гордиться. Ну подумаешь, всё ещё не Gemini. Со всеми случается некоторое время не быть Gemini.

Из плохого: в администрации запрещенной в России организации Мета работают конченые идиоты. Одно дело — бить гребцов на счёт 0.5, как Бендер в Футураме, и ставить им нереалистичные сроки. Другое дело — самим поверить в эти нереалистичные сроки и построить на них глобальную стратегию.

Учитывая, что эти идиоты управляют стратегией общемировых соцсетей, дела у нас плохи. Мир катится в это самое. Последние десять тысяч лет.

Выводы: врать надо уметь. Не умеешь врать — не берись. Учитесь у Сэма Гангстерса и Фродо Сумкинса из OpenAI, у них ложь неотличима от правды, а временами и полностью заменяет её в сознании культистов. И там подмешали данные, и здесь подмешали данные, но есть нюанс.

Давайте закончим на доброй ноте, ведь в каждой статье должна быть пасхалка. Когда я писал новость, пришлось найти — в каком же эпизоде Футурамы Бендер рассказывает свою знаменитую шутку. Я загнал вопрос одновременно в Claude Sonnet и в Perplexity.

Вот результат Claude:

Вот результат Perplexity:

Сейчас принято ругать Perplexity за то, что ее метод анализа очень поверхностный и недостаточно использует возможности «больших» сетей. Секрет Perplexity в коротких запросах, иначе они бы просто обанкротились со своими демпинговыми ценами и аттракционами невиданной щедрости. Но в своей нише, «замена Гугла и Яндекса» — она справляется очень хорошо.

Бонусные выводы для тех, кто до сюда дочитал: используйте инструмент по назначению. Взявший в руки молоток во всем видит гвоздь. А взявший в руки Claude Sonnet 3.7 во всем видит задачу этичного написания энциклопедической статьи по всем законам человекоцентричного алаймента — хотя реальная задача может быть «забить гвоздь молотком». Perplexity отлично справляется на задачах, для которых она изначально предназначена. И напротив, если вы решите с помощью Perplexity решать экзамен по математике, в увас могут возникнуть некоторые непоправимые трудности.

Если вам нравится такой контент, можете подписаться на мою телегу: 1red2black. Меня зовут Олег Чирухин, на работе я профессионально занимаюсь бесплатным форком VSCode с AI-ассистентом, а в свободное время (см. «работаете ли вы после работы») делаю секретный некоммерческий AI-стартап Anarchic. Соответственно, в телеге пишу про разработку IDE для программистов, и про разные новости нейросетей. Нас уже почти 8 сотен человек в канале и около 300 в чате. Подключайтесь к движухе!

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”