GPT-5.1 вошла в число лидеров по качеству программирования

Через день после релиза в ChatGPT, GPT-5.1 вышла в API и добавлена в кодинг-агент Codex вместе с новыми инструментами для разработки. Модель построена на архитектуре GPT-5 и унаследовала ее способность долго размышлять над сложными задачами — от анализа репозиториев до генерации патчей.

На бенчмарках GPT-5.1 демонстрирует стабильный прирост качества относительно GPT-5. В тесте SWE-bench Verified, где ИИ должен исправлять реальные баги в репозиториях, модель набрала 76,3% против 72,8% у GPT-5 — один из лучших результатов на рынке. По другим тестам (MMMU, GPQA, Tau²-bench) также заметны точечные улучшения. В сумме это выводит GPT-5.1 в группу лидеров среди код-моделей, наряду с последними версиями Claude Sonnet и Doubao-Seed-Code.

Параллельно OpenAI обновила инструментарий для программирования Codex: появились версии gpt-5.1-codex и gpt-5.1-codex-mini, оптимизированные для длительного анализа кода и агентных сценариев. В API добавили два ключевых инструмента — apply_patch, позволяющий генерировать чистые diff-патчи вместо JSON-правок, и shell, который дает ИИ базовый доступ к командной строке в контролируемой среде. Эти изменения уже внедряются в IDE и ассистентов, которые используют многократные итерации редактирования и проверку тестов.

Цены на GPT-5.1 Thinking в API сохранены на уровне GPT-5: $1,25 за 1M входящих токенов, $10 за 1M исходящих токенов и $0,125 за 1M кэшированных токенов. При этом время кэширования промптов увеличено до 24 часов — это снижает стоимость длительных сессий при работе с большими проектами или код-агентами.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”