Вчера, 24 ноября, компания Anthropic официально представила новую большую языковую модель Claude Opus 4.5, которая, исходя из внутренних тестов разработчика, является лучшим в мире решением для программирования, работы с ИИ-агентами и выполнения задач, связанных с компьютером. Например, в бенчмарке SWE-bench, направленном на оценку возможностей искусственного интеллекта в сфере программной инженерии, новая модель набирает 80,9% точности — это значит, что в 8 из 10 случаев модель способна решить поставленную задачу. У конкурентов дела заметно хуже — Gemini 3 Pro набирает всего 76,2% точности, а GPT-5.1-Codex-Max выдаёт 77,9%. Подписывайтесь на Telegram-канал про технологии Изображение: Anthropic
Кроме того, ещё на этапе тестирования перед официальным релизом внутри компании Anthropic модель Claude Opus 4.5 показала себя с лучшей стороны — специалисты отметили, что LLM справляется с неоднозначными задачами и рассуждает о возможных компромиссах без лишних усилий. Более того, если указать модели на сложную многосистемную ошибку, модель самостоятельно находит решение проблемы. Также тестировщики компании отметили, что задачи, которые ещё несколько недель назад были практически невыполнимыми для Sonnet 4.5, теперь вполне доступны. Да и во внутреннем тесте компании модель тоже показала впечатляющий результат. Изображение: Anthropic «Мы предлагаем потенциальным кандидатам на должность инженера по производительности крайне сложный экзамен, который они должны пройти [в качестве тестового задания]. Более того, мы тестируем свои новые модели на этом экзамене в качестве внутреннего эталона. И в течение установленного нами 2-часового лимита времени Claude Opus 4.5 набрала больше баллов, чем любой из кандидатов-людей», — рассказали в Anthropic.
Впрочем, программирование — не единственная область, в которой модель Claude Opus 4.5 преуспела. Разработчики заявили, что новинка стала лучше буквально по всем направлениям — были улучшены навыки визуализации, рассуждения, математические способности и многое другое. В некоторых сценариях (агентский запрос на заказ билетов) модель даже продемонстрировала творческий подход, который выходит за пределы стандартных метрик бенчмарков. Изображение: Anthropic
И, что немаловажно, компания сделала особый акцент на повышении уровня безопасности новой модели. Изображение: Anthropic
Разработчикам удалось повысить уровень согласованности и защиту от вредоносных промпт-инъекций, которые в последнее время набирают свою популярность в сети.
Источник: trashbox.ru