В полтора раза лучше ChatGPT o3? В сети обсуждают возможные бенчмарки Grok 4

X-аккаунт legit_api, опубликовал бенчмарки Grok 4, якобы обнаруженные тестерами модели в консоли xAI. Аккаунт legit_api уже публиковал позднее подтвердившиеся утечки на тему ИИ — например, касательно модели генерации видео Sora от OpenAI. Поэтому неудивительно, что бенчмарки Grok 4 стали бурно обсуждаться в X и на Reddit. Вот цифры:

Сразу стоит отметить два важных факта. Во-первых, в бенчмарках участвуют обычная версия Grok 4 и специальная версия для программирования, существование которой ранее подтвердил Илон Маск в сообщении на X. Во-вторых, метрики Standard и Test-Time-Compute предположительно отличаются тем, что во втором случае модель может потратить на попытки значительно больше ресурсов, чем версия, которая будет доступна пользователям. Поэтому рекомендуется ориентироваться на результат Standard, а на TTC смотреть лишь как на максимум, который можно теоретически выжать из модели.

Даже в режиме Standard в первую очередь впечатляют результаты в бенчмарке Humanity Last Exam (HLE). Это набор из 2 500 вопросов из более 100 академических дисциплин, от физики до юриспруденции, причем вопросы подобраны таким образом, чтобы их нельзя было подсмотреть в Google. HLE считается лучшим бенчмарком для оценки способности модели рассуждать с нуля, и в нем Grok 4 показывает максимальный возможный прирост — в полтора с лишним раза лучше лидирующих на текущий момент ChatGPT o3 и Gemini 2.5 Pro. В остальных метриках результат модели выше лишь на доли процента. GPQA включает 448 тестов уровня аспирантуры по физике, химии и биологии. AIME основан на задачах из престижного математического соревнования для старшеклассников в США, а SWE-bench построен на почти 2300 задач из программирования.

Напомню, что Grok 4 изначально был анонсирован 29 апреля Илоном Маском под названием Grok 3.5 как «ИИ, способный рассуждать из первых принципов», давая ответы на вопросы, которых нет в его базе знаний. Бизнесмен пообещал выпустить Grok 3.5 буквально через неделю, но позже признал, что поторопился и модель требует доработки. На прошлой неделе Маск рассказал, что модель теперь называется Grok 4 и будет выпущена «после 4 июля». Назначенная дата уже прошла, так что ждем — случится ли релиз в этот раз и покажет ли новинка столь же хорошие результаты, как в утекших бенчмарках.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”