Qwen выпустил генератор изображений с открытым кодом Qwen‑Image

Alibaba представила новую модель генерации изображений Qwen‑Image с открытым исходным кодом. Она доступна в чат-боте Qwen, а также на GitHub, Hugging Face и ModelScope.

Главное отличие Qwen-Image от многих конкурентов — точная отрисовка текста. Новинка поддерживает как алфавитные, так и иероглифические системы письма, позволяя сочетать латиницу и иероглифы на одном изображении.

В компании отмечают, что их продукт отлично работает со сложной типографикой и многострочной версткой. Кроме того, он показывает «высокую стабильность при редактировании изображений, сохраняя смысловую целостность». По запросу можно стилизовать картинку, отредактировать текст, поменять фон или позы изображенных персонажей, удалить или заменить объекты. Это позволяет создавать контент вроде постеров, слайдов, витрин магазинов, каллиграфии и инфографики.

Журналист Venture Beat, опробовавший генерацию картинок в Qwen-Image, отметил, что точность следования запросу и качество текста оказались не выше, чем у Midjourney. Иногда модель неверно понимала запросы и передавала текст — не спасали даже переформулировки.

Qwen-Image основана на архитектуре MMDiT с 20 млрд параметров — такой же, как у Flux.1 и будущей Stable Diffusion 3. Согласно техническому отчету, модель прошла многоэтапное обучение на миллиардах пар «изображение + текст».

В публичных тестах Qwen-Image показала равные или лучшие результаты, чем GPT Image 1, Seedream 3.0 и Flux.1 Kontext Pro. На платформе AI Arena модель занимает 3-е место среди всех и 1-е место среди open-source-решений.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии