Alibaba представила новую модель Qwen3.6-Plus: на что она способна

Новая модель Alibaba самостоятельно чинит баги в чужом репозитории, управляет браузером и пишет 3D-игры по одному текстовому запросу.

Alibaba Research выпустила языковую модель нового поколения. Разработчики из команды Qwen сосредоточились не на том, чтобы модель лучше отвечала на вопросы, а на том, чтобы она умела самостоятельно выполнять длинные цепочки действий: планировать, запускать код, исправлять ошибки и двигаться дальше без подсказок.

Главное структурное отличие от предшественника — контекстное окно в один миллион токенов по умолчанию. Для понимания масштаба: это примерно 750 тысяч слов, или несколько крупных романов одновременно. Благодаря этому модель держит в «голове» весь большой проект целиком: историю переписки, код, документацию, результаты предыдущих шагов.

В области автономного написания кода Qwen3.6-Plus показывает результаты вплотную к лидерам отрасли. На бенчмарке SWE-bench Verified — это стандартный тест, где модель должна самостоятельно найти и починить реальный баг в публичном репозитории на GitHub — новинка набрала 78,8 балла. Claude Opus 4.5 от Anthropic получил 80,9. Разница небольшая, но контекст важен: Qwen3.6-Plus при этом дешевле в эксплуатации для большинства сценариев.

Отдельно стоит выделить Terminal-Bench 2.0 — тест на работу в настоящем терминале Linux с реальными файлами, процессами и временными ограничениями. Здесь модель набрала 61,6 балла, и это лучший результат среди всех участников сравнения, включая Claude и GLM5.

Источник: hi-tech.mail.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии