Вчера, 5 августа, компания Anthropic официально представила новую большую языковую модель Claude Opus 4.1, которая является апдейтом Claude Opus 4 с рядом улучшений в области агентских задач, программирования и рассуждений. Например, разработчики заявили, что Opus 4.1 демонстрирует внушительные показатели точности в бенчмарке SWE-bench Verified (имитация задач из области Software engineering) — 74,5% против 72,5% у Opus 4 (у Gemini 2.5 Pro 67,2% точности). Впрочем, сказать, что это действительно впечатляющий апгрейд между поколениями, довольно трудно, хотя у конкурентов результаты тестов, конечно, заметно хуже. Подписывайтесь на Telegram-канал про технологии Изображение: Anthropic
Представители GitHub отметили, что Opus 4.1 превосходит предшественника по большинству задач, особенно в вопросах рефакторинга многофайлового кода, что, скорее всего, упростит жизнь многим разработчикам. О приросте производительности говорят и разработчики Windsurf (эту компанию ранее хотела купить OpenAI, но затем передумала) — они отмечают, что в их собственном бенчмарке новинка демонстрирует такой же прирост производительности, как при переходе с Sonnet 3.7 на Sonnet 4. И, конечно, не обошлось без стандартных синтетических тестов искусственного интеллекта, в которых новинка оказалась мощнее конкурентов и Opus 4 (правда, отрыв всё же небольшой). Изображение: Anthropic
Например, Opus 4.1 в бенчмарке Terminal-Bench (агентское программирование в рамках терминала) набирает 43,3% правильных ответов — у Opus 4 было 39,2%, то есть прирост менее 4,1% между поколениями. Но стоит отметить, что конкуренты в этом вопросе отстают достаточно сильно — Gemini 2.5 Pro от компании Google набирает всего 25,3% правильных ответов, то есть почти на 20% ниже, чем у новой модели. Даже OpenAI o3 показала всего 30,2% точности, хотя здесь стоит отметить, что у американского гиганта на подходе новейшая LLM, так что текущие результаты вскоре можно будет пересмотреть. И аналогичные результаты Opus 4.1 показывает во всех проведённых бенчмарках — модель обошла конкурентов во всех проведённых Anthropic тестах.
Но главное преимущество Opus 4.1 в том, что данная модель при всех своих улучшениях имеет ту же «стоимость» для конечного потребителя, что и Opus 4. Получить доступ к модели нового поколения могут все пользователи Claude с платной подпиской, а также поклонники платформы Claude Code. Конечно, модель также доступна посредством фирменного API и на платформах Amazon Bedrock и Vertex AI (Google Cloud).
Источник: trashbox.ru