Alibaba представила Qwen-Image — новую модель генерации изображений с открытым доступом, которая выделяется особенно высокой точностью в работе с текстом. Она способна создавать реалистичные надписи на витринах, плакатах, книгах и других объектах — включая мелкий текст, каллиграфию и даже сложные многоязычные компоновки.
Qwen-Image построена на архитектуре MMDiT с 20 миллиардами параметров — аналогичной той, что используется в Flux.1 и грядущем Stable Diffusion 3. Модель прошла мультизадачную подготовку, что позволило ей достичь высоких результатов как в генерации изображений, так и в их редактировании.
В публичных бенчмарках вроде GenEval, OneIG-Bench и ImgEdit она обошла существующие аналоги, а по качеству рендеринга китайского текста существенно превзошла лучшие из них. Alibaba отдельно подчёркивает, что Qwen-Image отлично справляется с тонкими деталями вроде иероглифов, многострочных подписей, заголовков и сочетаний шрифтов.
Модель может:
Модель уже доступна в Qwen Chat в режиме «Генерация изображений», но пока без редактирования. Также её выложили на GitHub, Hugging Face и ModelScope. В ближайшее время ожидается интеграция Qwen-Image в будущие мультимодальные модели Qwen 4 и Qwen 5.
Ранее Alibaba прокачала линейку ИИ-моделей Qwen 3 — особенно в математике и кодинге.
Источник: lifehacker.ru