Anthropic представила Claude Opus 4.1: новая модель заметно оторвалась от конкурентов

Вчера, 5 августа, компания Anthropic официально представила новую большую языковую модель Claude Opus 4.1, которая является апдейтом Claude Opus 4 с рядом улучшений в области агентских задач, программирования и рассуждений. Например, разработчики заявили, что Opus 4.1 демонстрирует внушительные показатели точности в бенчмарке SWE-bench Verified (имитация задач из области Software engineering) — 74,5% против 72,5% у Opus 4 (у Gemini 2.5 Pro 67,2% точности). Впрочем, сказать, что это действительно впечатляющий апгрейд между поколениями, довольно трудно, хотя у конкурентов результаты тестов, конечно, заметно хуже. Подписывайтесь на Telegram-канал про технологии Изображение: Anthropic

Представители GitHub отметили, что Opus 4.1 превосходит предшественника по большинству задач, особенно в вопросах рефакторинга многофайлового кода, что, скорее всего, упростит жизнь многим разработчикам. О приросте производительности говорят и разработчики Windsurf (эту компанию ранее хотела купить OpenAI, но затем передумала) — они отмечают, что в их собственном бенчмарке новинка демонстрирует такой же прирост производительности, как при переходе с Sonnet 3.7 на Sonnet 4. И, конечно, не обошлось без стандартных синтетических тестов искусственного интеллекта, в которых новинка оказалась мощнее конкурентов и Opus 4 (правда, отрыв всё же небольшой). Изображение: Anthropic

Например, Opus 4.1 в бенчмарке Terminal-Bench (агентское программирование в рамках терминала) набирает 43,3% правильных ответов — у Opus 4 было 39,2%, то есть прирост менее 4,1% между поколениями. Но стоит отметить, что конкуренты в этом вопросе отстают достаточно сильно — Gemini 2.5 Pro от компании Google набирает всего 25,3% правильных ответов, то есть почти на 20% ниже, чем у новой модели. Даже OpenAI o3 показала всего 30,2% точности, хотя здесь стоит отметить, что у американского гиганта на подходе новейшая LLM, так что текущие результаты вскоре можно будет пересмотреть. И аналогичные результаты Opus 4.1 показывает во всех проведённых бенчмарках — модель обошла конкурентов во всех проведённых Anthropic тестах.

Но главное преимущество Opus 4.1 в том, что данная модель при всех своих улучшениях имеет ту же «стоимость» для конечного потребителя, что и Opus 4. Получить доступ к модели нового поколения могут все пользователи Claude с платной подпиской, а также поклонники платформы Claude Code. Конечно, модель также доступна посредством фирменного API и на платформах Amazon Bedrock и Vertex AI (Google Cloud).

Источник: trashbox.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”