Grok 4 — «AGI у нас дома» или просто хайп?

Как известно, вчера вышла новая итерация ИИ от xAI — Grok 4.Пока в техсообществе считалось хорошим тоном нахваливать Claude Opus, немного — GPT‑4o, и снисходительно хихикать над творением Илона Маска, Grok ворвался и внезапно взорвал танцпол. По крайней мере — в бенчмарках.

Humanity’s Last ExamGrok 4 и особенно Grok 4 Heavy обошли ближайших конкурентов — в том числе Gemini 1.5/2.5 Pro — с солидным отрывом.

Что это такое: Humanity’s Last Exam — это один из самых амбициозных и по-настоящему сложных бенчмарков для оценки уровня искусственного интеллекта, приближённого к человеческому мышлению. Его невозможно пройти просто доставая информации из интернета или памяти без настоящего логического мышления. К этому экзамену нельзя заранее подготвиться.

Название является шуткой обыгрывающей то, что если ИИ его пройдёт — то человечество больше не нужно. Или не совсем шуткой. Когда ИИ достигнет в нём результата близкого к 100% — что это? Правильно, AGI.

Как он устроен: HLE включает в себя вопросы из реальных школьных, университетских и олимпиадных тестов, которые требуют логики, интуиции, обобщения и многоступенчатого рассуждения. Чтобы модели нельзя было натренировать, тест изолирован от «натаскивания», как это бывает с популярными экзаменами вроде SAT, GRE и т. д.

Почему это важно для AGI: Если ИИ хорошо справляется с HLE — это признак приближения к General Intelligence, а не просто хорошо адаптированный к тесту fine‑tuned болтун. В отличие от стандартных бенчмарков, HLE проверяет глубину понимания, а не натренированность на датасете.

ARC-AGIВ этом тесте Grok 4 тоже опередил всех. И да, он делает это без цены в $0.30 за токен.

Что это такое: ARC-AGI (или ARC-Challenge) — это бенчмарк из серии Abstraction and Reasoning Corpus, разработанный для оценки способности ИИ к абстрактному мышлению, переносу знаний и решению задач без обучения на примерах.

Как он устроен: Каждая задача — это набор input‑output примеров: ИИ видит лишь несколько пар «вход‑выход», а затем даётся новый «вход», к которому нужно придумать правильный «выход». Инструкций и пояснений нет. Всё нужно понять из примеров.

Задачи выглядят как простые пиксельные матрицы (обычно 2D‑сетки), но логика за ними часто нетривиальна: трансформации, паттерны, правила симметрии, циклы, исключения и пр.

Почему это важно для AGI: Это не то, чему можно просто обучиться на большом корпусе текста — модель должна догадаться до правила. ARC-AGI специально разработан так, чтобы даже state-of-the-art модели не могли натренироваться на похожих задачах. ARC-AGI оценивает универсальность мышления, способность к обобщению, аналогичную человеческому понятию «сообразительности».

Vending-BenchGrok 4 оказался неожиданно хорош не только в экзаменах, но и в управлении — пусть и виртуальным — бизнесом.

Что это такое: в отличие от прошлых бенчмарков, этот разработан для тестирования не однократного успеха, а способности ИИ‑агентов сохранять стабильность решения интеллектуальных задач в автономном режиме. В это сценарии ИИ управляет виртуальным автоматом — принимает заказ, устанавливает цены, следит за запасами, пополняет их, оплачивает ежедневные сборы. Обычные LLM отлично справляются с короткими заданиями, но рано или поздно «срываются»: забывают сделать заказ, неправильно интерпретируют статус, входят в бессмысленные циклы. Модели нужно планировать, выбирать нужные инструменты (API, читать мануалы, искать, делаь финрасчёты загодя) — т. е. выступать не пассивным объектом взаимодействия, а по‑настоящему активным субъектом.

Почему это важно для AGI: Большинство современных моделей умеют решать задачи длиной в один или несколько запросов. Но теоретический AGI должен уметь действовать автономно в долгий срок, обрабатывать ввод, делать выбор, корректировать поведение, не зацикливаться и не сбиваться с фокуса своей задачи.

Vending‑Bench — это попытка симулировать автономную жизнь ИИ в узком, но всё же сценарии: не просто отвечать на промпты извне, а вести бизнес.

Другие бенчиКакой тест не возьми — везде Grok 4 в лидерахGPQA (Graduate-Level Physics QA)

Вопросы уровня аспирантуры по физике. Не списать, не нагуглить. Grok справляется.

AIME25 (American Invitational Mathematics Exam, 2025)

Олимпиада по математике для школьников в США. Сложно, нестандартно. Grok на высоте.

LCB (MATH Labeled Chain-of-Thought Benchmark)

Математические задачи с обязательной цепочкой рассуждений. Проверяется не просто ответ, а логика рассуждения. Grok держится лучше GPT‑4o и Claude.

HMMT25 (Harvard-MIT Math Tournament, 2025)

Математические задачи олимпиадного уровня из ежегодного турнира для старшеклассников. Проверяют комбинаторику, теорию чисел и нестандартное мышление.

USAMO25 (USA Mathematical Olympiad, 2025)

Топовые математические олимпиады — с акцентом на доказательства, теорию чисел, комбинаторику. Здесь не выживают просто убедительно жонглирующие словами LLM. Grok снова в топе.

Вместо выводов

Если вы ещё вчера смеялись над «Грокгейтом» в X (твиттор) — мол, что можно ожидать от модели, которую пользователи соцсети два дня назад развели (джейлбрекнули) на политический троллинг в самом кринжовом его проявлении — то я бы пересмотрел позицию.

Стоит ли платить 30$ (на целых 10$ больше, чем в большинстве мейнстримных моделей) в месяц Илону за самые красивые бенчи? А 300$ (!) за Grok 4 Heavy, а ?Если вы просто общаетесь с ИИ ради эмпатии и сеансов психоанализа — нет, GPT‑4o и Claude всё ещё милее.Однако впервые платить 30 баксов в месяц Илону получило веское обоснование.

Дорого? Да. Особенно учитывая, что у большинства из нас и так подписка минимум 20$ на ChatGPT и/или Claude.Любопытно? Очень.AGI это? Пока нет, выдыхаем.P. S. Бесплатного тира у Grok 4 нет. Заход в «AGI для народа» — строго по прайсу.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”