В полтора раза лучше ChatGPT o3? В сети обсуждают возможные бенчмарки Grok 4

X-аккаунт legit_api, опубликовал бенчмарки Grok 4, якобы обнаруженные тестерами модели в консоли xAI. Аккаунт legit_api уже публиковал позднее подтвердившиеся утечки на тему ИИ — например, касательно модели генерации видео Sora от OpenAI. Поэтому неудивительно, что бенчмарки Grok 4 стали бурно обсуждаться в X и на Reddit. Вот цифры:

Сразу стоит отметить два важных факта. Во-первых, в бенчмарках участвуют обычная версия Grok 4 и специальная версия для программирования, существование которой ранее подтвердил Илон Маск в сообщении на X. Во-вторых, метрики Standard и Test-Time-Compute предположительно отличаются тем, что во втором случае модель может потратить на попытки значительно больше ресурсов, чем версия, которая будет доступна пользователям. Поэтому рекомендуется ориентироваться на результат Standard, а на TTC смотреть лишь как на максимум, который можно теоретически выжать из модели.

Даже в режиме Standard в первую очередь впечатляют результаты в бенчмарке Humanity Last Exam (HLE). Это набор из 2 500 вопросов из более 100 академических дисциплин, от физики до юриспруденции, причем вопросы подобраны таким образом, чтобы их нельзя было подсмотреть в Google. HLE считается лучшим бенчмарком для оценки способности модели рассуждать с нуля, и в нем Grok 4 показывает максимальный возможный прирост — в полтора с лишним раза лучше лидирующих на текущий момент ChatGPT o3 и Gemini 2.5 Pro. В остальных метриках результат модели выше лишь на доли процента. GPQA включает 448 тестов уровня аспирантуры по физике, химии и биологии. AIME основан на задачах из престижного математического соревнования для старшеклассников в США, а SWE-bench построен на почти 2300 задач из программирования.

Напомню, что Grok 4 изначально был анонсирован 29 апреля Илоном Маском под названием Grok 3.5 как «ИИ, способный рассуждать из первых принципов», давая ответы на вопросы, которых нет в его базе знаний. Бизнесмен пообещал выпустить Grok 3.5 буквально через неделю, но позже признал, что поторопился и модель требует доработки. На прошлой неделе Маск рассказал, что модель теперь называется Grok 4 и будет выпущена «после 4 июля». Назначенная дата уже прошла, так что ждем — случится ли релиз в этот раз и покажет ли новинка столь же хорошие результаты, как в утекших бенчмарках.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии