Claude Opus 4.5 стал лидером в сложнейшем тесте ИИ

Практически сразу после выхода Claude Opus 4.5, организация ARC Prize опубликовала результаты модели в своих бенчмарках ARC-AGI-1 и ARC-AGI-2. В ARC-AGI1 модель достигает 80% при цене в $1,47 за выполнение задания, а в ARC-AGI-2 — 37,64% при цене в $2,40.

ARC-AGI — серия тестов на абстрактное мышление, определяющих умение модели извлекать знание и переносить его на похожие типы задач. Сначала в тесте показывают табличку с визуальной головоломкой и еще решенный вариант. Затем показывают еще одну пару «задача» > «решение» с тем же правилом, а третью головоломку модель должна решить сама на основе полученных знаний. Для людей этот достаточно простой тест, а вот навык переноса знаний у ИИ начал появляться только в последних версиях моделей — он считается ключевым для будущих сложных агентов, работающих в постоянно меняющихся условиях.

В ARC-AGI-1 Opus 4.5 и многие другие модели уже достигли уровня, близкого к человеческому — но считается, что этот бенчмарк устарел, а некоторые задачи из него могли утечь в корпус обучающих знаний. ARC-AGI-2 вышел совсем недавно, задачи в нем лучше защищены от «дообучения». Opus 4.5 (37,64%) значительно обошел предыдущего лидера (Gemini 3 Pro с порядка 31%), но до человеческого уровня ему еще далеко — он оценивается в 66%.

Opus 4.5 — новая флагманская модель Anthropic, которая обходит конкурентов от Google и OpenAI в большинстве бенчмарков, в том числе SWE-Bench Verified, считающимся одним из главных бенчмарков в программировании. При этом цена модели в API снижена в три раза (до $5 за миллион входных токенов и $25 за миллион выходных), также Opus 4.5 намного экономнее расходует токены в сложных задачах — в итоге в некоторых ситуациях его использование даже дешевле, чем предыдущей модели компании Claude Sonnet 4.5.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”