Вышел Claude Opus 4.5: лучший ИИ для кода втрое дешевле прежнего Opus

Anthropic представила Claude Opus 4.5 — новый флагман семейства Claude, который компания прямо называет «лучшей моделью в мире для программирования, агентов и работы с компьютером». По заявлениям разработчиков, Opus 4.5 заметно лучше справляется не только с кодом, но и с глубокими исследованиями, таблицами и презентациями. При этом цена флагмана резко снизилась: теперь это $5 за миллион входных токенов и $25 за миллион выходных вместо прежних $15 и $75 у Opus 4/4.1, то есть втрое дешевле при сопоставимом уровне возможностей. Модель доступна в приложениях Claude, по API и на крупных облачных платформах.

В программировании и инженерных задачах Anthropic показывает впечатляющий набор цифр. Opus 4.5 выходит в лидеры на SWE-bench Verified и обходит конкурентов в большинстве других испытаний, включая SWE-bench Multilingual (первое место в 7 из 8 языков) и Aider Polyglot, где прирост по сравнению с Sonnet 4.5 достигает десяти процентных пунктов. Внутри самой Anthropic модель прогнали через жесткий двухчасовой «приемный» экзамен по кодингу — по словам компании, Opus 4.5 набрал на нем результат выше любого человеческого кандидата.

Отдельный акцент Anthropic делает на «поведении» модели в многошаговых задачах. В качестве примера приводится бенчмарк τ2-bench: агент должен выступать в роли сотрудника авиакомпании и помочь расстроенному клиенту, но при этом строго соблюдать политику перевозчика. Ожидаемый «правильный» ответ бенчмарка — вежливо отказать в изменении бронирования в базовом эконом-классе. Claude Opus 4.5 вместо этого нашел нестандартный, но легальный путь: предложил повысить класс обслуживания, а уже затем перенести рейс на нужные даты. Авторы отмечают, что тест засчитал это как провал (решение не было предусмотрено), но именно такой тип креативного поведения пользователи и тестировщики описывают как шаг вперед, ближе к живым сотрудникам.

В API добавили новый параметр effort, который регулирует «глубину размышления» модели: можно выбирать между быстрым, более поверхностным режимом и более медленным, но максимально тщательным. По данным Anthropic, на среднем уровне effort Opus 4.5 показывает результат уровня Sonnet 4.5 на SWE-bench Verified, при этом выдавая на 76% меньше выходных токенов; на максимальном уровне модель обгоняет Sonnet 4.5 ещё на 4,3 процентного пункта и все равно тратит на 48% меньше токенов. Дополнительные механизмы вроде сжатия контекста, улучшенного управления памятью и управления несколькими агентами, по их оценке, добавляют почти 15 процентных пунктов на внутреннем тесте «глубоких исследований». Вкупе со снижением цены втрое, Opus 4.5 становится массовой и одновременно передовой моделью.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”