Илон Маск теперь считает, что Grok 5 может достичь AGI. Но что убедило его в этом?

Илон Маск заявил, что «теперь я считаю, что xAI может достичь AGI с Grok 5» в ответ на результаты экспериментов исследователя ИИ Джереми Бермана, который создал на базе Grok 4 «эволюционную мультиагентную систему» и заявил о новых рекордах: 79,6% на ARC-AGI-1 при ~$8,42 за задачу и 29,4% на ARC-AGI-2 при ~$30,40 за задачу. Вдохновленный результатами, Маск анонсировал, что тренировка Grok 5 начнется в ближайшие недели (эти сроки совпадают с его прежними анонсами).

Но что революционного в подходе Бермана? Бенчмарки ARC-AGI и ARC-AGI v2 устроены как головоломки на цветных клеточках. Сначала показывают несколько картинок «до» и «после», из которых понятны правила, как надо менять рисунок. Затем дают новую картинку «до» — и ее надо преобразовать в результат. Человеку достаточно легко разобраться, что сделать с картинкой — результаты в обоих тестах близки к 85-100%. А вот в случае с ИИ бенчмарк показывает, насколько хорошо модель не просто запоминает тысячи похожих задач, а умеет обобщать правила их решения и применять в новых ситуациях.

Grok 4 и в базовой версии лидирует в этих бенчмарках, но система Бермана использует эволюционный подход и целую группу агентов на базе этой модели. Сначала тот же Grok 4 изучает обучающие примеры и пишет набор из 36 вариантов решений. Затем субагенты (опять на базе Grok 4) берут эти промпты, прогоняют по обучающим задачам бенчмарка, начисляя балы за совпадение. Промпты с лучшим счетом «размножают», внося изменения. Так проходит несколько циклов «эволюционного отбора», по итогам которых выбирается лучший промпт — и используется на тестовых задачах.

Интересно, что долгое время исследователи пытались улучшить результат, выделяя одной модели максимальное время на решение — таким образом GPT o3 достигла 87% в первой версии бенчмарка. Но подход Бермана показывает, что, возможно, эффективнее запускать много моделей в параллели, чтобы они находили лучшее решение. Аналогичная схема уже используется в Grok 4 Heavy, Gemini 2.5 DeepThink и GPT-5-Pro — но там модели работают без «эволюционной» стадии.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии