Anthropic запустила Claude Opus 4.7: лучше видит код, меньше просит помощи и втрое точнее читает схемы

Anthropic сделала общедоступной новую версию своей языковой модели — Claude Opus 4.7. Релиз состоялся спустя два месяца после предыдущего обновления линейки Opus, и основные изменения сконцентрированы вокруг способности модели решать сложные инженерные задачи с меньшим контролем со стороны человека.

Главный акцент в Opus 4.7 сделан на продвинутую разработку программного обеспечения. По заявлениям компании, модель теперь способна брать на себя задачи, которые раньше требовали постоянного надзора. В бенчмарке CursorBench, оценивающем навыки написания кода, новая версия достигла показателя успешности 70% против 58% у Opus 4.6. Также модель получила серьёзное обновление в части компьютерного зрения и Opus 4.7 обрабатывает изображения с разрешением до 2576 пикселей по длинной стороне, что примерно в три раза больше, чем позволяли предыдущие версии Claude. В собственных тестах Anthropic точность распознавания поднялась с 54,5% до 98,5%.

Результаты тестов Opus 4.7

Согласно сравнительным таблицам, опубликованным разработчиками, Opus 4.7 обходит по ряду метрик актуальные публичные версии GPT-5.4 и Gemini 3.1 Pro. При этом модель уступает более мощной Claude Mythos Preview, которая остаётся в ограниченном доступе. В Anthropic пояснили, что Mythos Preview не выпускают широко из-за соображений кибербезопасности, а Opus 4.7 стала первой моделью, на которой тестируются новые защитные механизмы.

Одно из заметных технических изменений коснулось токенизатора. В Opus 4.7 используется обновлённый механизм обработки текста, из-за которого одно и то же входное сообщение может преобразовываться в большее количество токенов — коэффициент увеличения варьируется от 1,0 до 1,35 в зависимости от типа контента. Кроме того, на более высоких уровнях «усилий» модель тратит больше вычислительного времени на обдумывание сложных задач, что также увеличивает объём выходных токенов.

Общий прогресс развитей нейросети

Opus 4.7 уже доступна во всех продуктах Claude, через API, а также на платформах Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry. В API появился новый параметр xhigh («extra high») — промежуточный уровень между high и max, позволяющий точнее настраивать баланс между глубиной анализа и скоростью отклика.

Как вы оцениваете практическую пользу от повышения автономности моделей в разработке — готовы ли уже сейчас доверить ИИ задачи без промежуточного контроля, или предпочитаете держать процесс под личным надзором? Делитесь мнением в комментариях.

Тест по теме Тест: угадайте игру по описанию от нейросети! 11 вопросов

Святослав Лецкий 6 июля 2022

Разработчики стараются придумывать логичные и увлекательные сюжеты, однако безумной нейросети хватит пары секунд, чтобы извратить их до неузнаваемости. Мы пропустили через искусственный интеллект описания известных игр — но сможете ли вы угадать, о каком проекте речь? Заходите в тест и постарайтесь раскусить нейросеть!

Примечание. Жирным шрифтом выделен текст, который мы ввели в нейросеть. Всё остальное — полёт фантазии безумного ИИ. Мы никак не корректировали версию нейросети, только удалили названия игр. А чтобы не было сомнений в подлинности текстов, скриншоты хранятся здесь. Начать НовостиЖелезо и технологииискусственный интеллект

Источник: vgtimes.ru

0 0 голоса

Рейтинг новости