Компания Alibaba обновила свою модель Qwen для работы с изображениями, добавив в неё новые инструменты редактирования — теперь они охватывают как визуальные правки, так и семантические преобразования.
Qwen Image Edit создана на основе 20-миллиардной модели Qwen Image и сочетает две стратегии обработки: модуль Qwen2.5 VL отвечает за семантический контроль, а вариационный автоэнкодер (variational autoencoder, VAE) управляет визуальной стороной изображения. Подробности об архитектуре Alibaba пока не раскрывает.
По словам компании, система способна на всё — от лёгких косметических ретушей до сложных смысловых изменений. Визуальное редактирование позволяет менять лишь отдельные фрагменты, сохраняя остальное без вмешательств. Семантическое же вмешательство затрагивает пиксели по всей картинке, но при этом главный объект остаётся узнаваемым и неизменным по сути.
Два режима редактирования для разных задач
На примере семантического редактирования Alibaba показала, как модель способна создавать новый контент с участием своего капибарного талисмана. Даже если меняется бо́льшая часть изображения, сам персонаж остаётся тем же самым.
Qwen Image Edit создаёт новые версии талисмана‑капибары, которые можно использовать как стикеры в мессенджерах и других форматах
Другие сценарии применения включают генерацию новых ракурсов с поворотами объектов на 90° или 180°, а также использование трансфера стиля для создания аватаров — например, превращение портретов в изображения в духе студии Ghibli.
Модель генерирует новые ракурсы для людей, животных и предметов
Кроме того, Qwen Image Edit умеет добавлять таблички с естественными отражениями, удалять выбившиеся из причёски волосы, менять цвета букв, а также редактировать фон или одежду.
Qwen Image Edit добавляет деревянную табличку с надписью Welcome to Penguin Beach перед колонией пингвинов, создавая естественные тениДвуязычное редактирование текста с пошаговой коррекцией
Одним из главных достоинств Qwen Image Edit является умение работать с текстом — как на китайском, так и на английском языках. Система может добавлять, удалять или менять надписи прямо в изображениях, сохраняя оригинальный шрифт, размер и стиль.
Qwen Image Edit меняет надпись на плитках «Эрудита» с Health Insurance на Financial Planning, сохраняя исходный стиль
Пользователь может обвести прямоугольником неверный или нежелательный текст, и модель обновит именно отмеченные области. Иногда ей трудно даются редкие и сложные иероглифы, вроде «稽», но в таких случаях доступен пошаговый режим правок: можно выделять проблемные места и давать системе возможность дорабатывать результат до тех пор, пока он не устроит.
Инструмент заменяет неправильные символы и позволяет пользователю напрямую отмечать зоны для исправления
Alibaba утверждает, что Qwen Image Edit показывает уровень «передовых технологий» на общедоступных тестах редактирования изображений, хотя конкретных цифр компания не приводит. Модель доступна через функцию Image Editing в Qwen Chat, а также опубликована на Github, Hugging Face и Modelscope.
Появление Qwen Image Edit наглядно показывает, насколько стремительно развивается прицельное редактирование изображений и работа с текстом. Ещё недавно искусственному интеллекту было трудно изменить лишь фрагменты картинки, не разрушив её целостность.
В эту гонку включилась и компания Black Forest Labs, выпустившая Flux.1 Context — модель, сочетающую генерацию изображений по текстовым запросам и редактирование картинок.
Воспользоваться моделями GPT Image 1, Midjourney v7 или Flux 1.1 Pro Ultra можно в BotHub. По ссылке дают 100 000 бесплатных капсов, чтобы сразу приступить к работе.
Источник: habr.com