После вчерашнего запуска Claude Sonnet 4.5, который по большинству бенчмарков стал лучшим ИИ для программирования, многие СМИ отдельно выделили его возможность долго работать без перерывов. Anthropic заявляет, что в одном из внутренних тестов Claude Sonnet 4.5 создал чат-приложение уровня Slack/Teams, написав 11 тысяч строк кода и самостоятельно завершив задачу. На задачу ушло около 30 часов, что примерно в 4 раза дольше, чем предыдущий рекорд автономной работы для ИИ Anthropic.
TechCrunch со ссылкой на исследователя Anthropic Дэвида Херши отмечает, что в корпоративных тестах Sonnet 4.5 до 30 часов не только писала код, но и поднимала службы баз данных, покупала доменные имена, проходила аудит по стандарту операционного контроля (SOC 2). Участвовавшие в бета-тесте специалисты Canva хвалят новинку за «сложные, длинноконтекстные задачи — от инженерных правок в нашей кодовой базе до продуктовых функций и исследований».
Эксперт по ИИ Рохан Паул рассказал в X, как Anthropic удалось достичь такой продолжительности работы. По его словам, к этому привели следующие решения: редактирование контекста на лету и отдельный инструмент памяти, который хранит рабочие заметки вне окна диалога. Также в списке контрольные точки автономного режима Claude Code с возможностью отката; более устойчивые циклы “план → действие → проверка” и улучшенные навыки “компьютерного пользования” (OSWorld — 61,4%), благодаря чему агент умеет восстанавливаться после мелких сбоев и продолжать сессию без человека. Плюс запуск в управляемых облаках (Amazon Bedrock, Google Vertex AI, Snowflake) с изоляцией окружения и наблюдаемостью — это делает длинные прогоны практичными в реальных компаниях
До Claude Sonnet 4.5 рекорд непрерывной работы составлял 7 часов. Именно такое время недавно заявляла OpenAI для своего GPT-5-Codex, а также аналогичную цифру получали в Anthropic на тестировании Claude Opus 4 в мае.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com