OpenAI выпустила GPT-5.1-Codex-Max — новый лидер в программировании

OpenAI представила GPT-5.1-Codex-Max — версию GPT-5.1 Thinking, специально заточенную под задачи программирования внутри кодинг-агента Codex. Модель раскатывается во всех версиях Codex для планов ChatGPT Plus, Pro, Edu и Enterprise. Выход в API ожидается позднее.

Этим релизом компания ответила на запуск Google Gemini 3 Pro — и по собственным оценкам вернула первое место в нескольких бенчмарках по программированию. В SWE-Bench Verified, который считается одним из главных бенчмарков по программированию, модель обходит Gemini 3 Pro (76,2%) и Claude Sonnet 4.5 (77,2%). Также виден рост по другим бенчмаркам.

На настройках low, medium и high модель показывает лучшие результаты, чем GPT-5.1-Codex, при этом тратит меньше токенов — то есть, работает дешевле и быстрее. Для максимального результата добавлена настройка xhigh. В OpenAI отмечают, что во внутренних тестах модель работала над задачей до 24 часов без вмешательства.

Также это первая модель, нативно обученная работать через несколько контекстных окон с помощью механизма compaction — то есть она сама «уплотняет» историю, вытаскивая главное и продолжая работу дальше. Это позволяет обрабатывать миллионы токенов в рамках одной задачи.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”