Новая модель Alibaba самостоятельно чинит баги в чужом репозитории, управляет браузером и пишет 3D-игры по одному текстовому запросу.
Alibaba Research выпустила языковую модель нового поколения. Разработчики из команды Qwen сосредоточились не на том, чтобы модель лучше отвечала на вопросы, а на том, чтобы она умела самостоятельно выполнять длинные цепочки действий: планировать, запускать код, исправлять ошибки и двигаться дальше без подсказок.
Главное структурное отличие от предшественника — контекстное окно в один миллион токенов по умолчанию. Для понимания масштаба: это примерно 750 тысяч слов, или несколько крупных романов одновременно. Благодаря этому модель держит в «голове» весь большой проект целиком: историю переписки, код, документацию, результаты предыдущих шагов.
В области автономного написания кода Qwen3.6-Plus показывает результаты вплотную к лидерам отрасли. На бенчмарке SWE-bench Verified — это стандартный тест, где модель должна самостоятельно найти и починить реальный баг в публичном репозитории на GitHub — новинка набрала 78,8 балла. Claude Opus 4.5 от Anthropic получил 80,9. Разница небольшая, но контекст важен: Qwen3.6-Plus при этом дешевле в эксплуатации для большинства сценариев.
Отдельно стоит выделить Terminal-Bench 2.0 — тест на работу в настоящем терминале Linux с реальными файлами, процессами и временными ограничениями. Здесь модель набрала 61,6 балла, и это лучший результат среди всех участников сравнения, включая Claude и GLM5.
Источник: hi-tech.mail.ru