Anthropic представила Claude Opus 4.5: самую мощную модель для программирования

Вчера, 24 ноября, компания Anthropic официально представила новую большую языковую модель Claude Opus 4.5, которая, исходя из внутренних тестов разработчика, является лучшим в мире решением для программирования, работы с ИИ-агентами и выполнения задач, связанных с компьютером. Например, в бенчмарке SWE-bench, направленном на оценку возможностей искусственного интеллекта в сфере программной инженерии, новая модель набирает 80,9% точности — это значит, что в 8 из 10 случаев модель способна решить поставленную задачу. У конкурентов дела заметно хуже — Gemini 3 Pro набирает всего 76,2% точности, а GPT-5.1-Codex-Max выдаёт 77,9%. Подписывайтесь на Telegram-канал про технологии Изображение: Anthropic

Кроме того, ещё на этапе тестирования перед официальным релизом внутри компании Anthropic модель Claude Opus 4.5 показала себя с лучшей стороны — специалисты отметили, что LLM справляется с неоднозначными задачами и рассуждает о возможных компромиссах без лишних усилий. Более того, если указать модели на сложную многосистемную ошибку, модель самостоятельно находит решение проблемы. Также тестировщики компании отметили, что задачи, которые ещё несколько недель назад были практически невыполнимыми для Sonnet 4.5, теперь вполне доступны. Да и во внутреннем тесте компании модель тоже показала впечатляющий результат. Изображение: Anthropic «Мы предлагаем потенциальным кандидатам на должность инженера по производительности крайне сложный экзамен, который они должны пройти [в качестве тестового задания]. Более того, мы тестируем свои новые модели на этом экзамене в качестве внутреннего эталона. И в течение установленного нами 2-часового лимита времени Claude Opus 4.5 набрала больше баллов, чем любой из кандидатов-людей», — рассказали в Anthropic.

Впрочем, программирование — не единственная область, в которой модель Claude Opus 4.5 преуспела. Разработчики заявили, что новинка стала лучше буквально по всем направлениям — были улучшены навыки визуализации, рассуждения, математические способности и многое другое. В некоторых сценариях (агентский запрос на заказ билетов) модель даже продемонстрировала творческий подход, который выходит за пределы стандартных метрик бенчмарков. Изображение: Anthropic

И, что немаловажно, компания сделала особый акцент на повышении уровня безопасности новой модели. Изображение: Anthropic

Разработчикам удалось повысить уровень согласованности и защиту от вредоносных промпт-инъекций, которые в последнее время набирают свою популярность в сети.

Источник: trashbox.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”