GPT-5.1 Thinking заняла первое место в одном из самых сложных бенчмарков для ИИ

GPT-5.1 Thinking пришла первой в бенчмарках ARC-AGI-1 и ARC-AGI-2, которые считаются одними из самых сложных и важных для ИИ. Суть этих бенчмарков в том, что они пытаются замерить не знания модели, а ее способность к абстрактному мышлению в духе человека и способности решать задачи, которые он никогда не видел.

На старте каждой задачи ИИ показывают два набора цветных табличек из клеток в состоянии «было» > «стало» — из них модель должна вывести правило, а затем применить его на новой задаче. Например, если в обоих наборах есть несколько столбиков разной высоты, а в «стало» исчезает самый высокий столбик — логично, что в новой задаче надо также убрать самый высокий столбик. Для человека это очень просто, но современным ИИ пока намного сложнее переносить полученные навыки. Давайте посмотрим на результаты.

В ARC-AGI-1 модель показывает 72,8%, что близко к человеческому уровню. Но стоит отметить, что данный бенчмарк вышел в 2019 году и, несмотря на то, что его задачи закрыты, утечки и анализ результатов позволил разработчикам моделей «заточить» ИИ специально под его прохождение.

В ARC-AGI-2 модель показывает 17,6%. Это немного лучше лидировавшего ранее Grok 4 (16%), и значительно выше результата GPT-5 (9,9%, отсутствует на изображении, но все результаты можно посмотреть на официальном сайте). Сам бенчмарк запустили в 2025 году, в нем намного больше задач, плюс они более разнообразны — поэтому натренировать модель под бенчмарк намного сложнее.

Сравнение GPT-5.1 и GPT-5 показывает, что за три месяца, которые потребовались на обновление модели, команда действительно смогла добиться существенного прогресса в некоторых областях. Впрочем, до человеческого уровня еще далеко — он для ARC-AGI-2 считается в 66%. Также стоит добавить, что в данной оценке учитываются только массовые версии ИИ. Профессиональные модели вроде GPT-5 Pro и Grok 4 Heavy, а также сборки исследователей, где сразу несколько копий ИИ работают в параллели, «мутируя» решения и выбирая лучшие, могут показывать лучшие результаты.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии