Qwen Image Edit — новый шаг к умному и смысловому редактированию фото

Компания Alibaba обновила свою модель Qwen для работы с изображениями, добавив в неё новые инструменты редактирования — теперь они охватывают как визуальные правки, так и семантические преобразования.

Qwen Image Edit создана на основе 20-миллиардной модели Qwen Image и сочетает две стратегии обработки: модуль Qwen2.5 VL отвечает за семантический контроль, а вариационный автоэнкодер (variational autoencoder, VAE) управляет визуальной стороной изображения. Подробности об архитектуре Alibaba пока не раскрывает.

По словам компании, система способна на всё — от лёгких косметических ретушей до сложных смысловых изменений. Визуальное редактирование позволяет менять лишь отдельные фрагменты, сохраняя остальное без вмешательств. Семантическое же вмешательство затрагивает пиксели по всей картинке, но при этом главный объект остаётся узнаваемым и неизменным по сути.

Два режима редактирования для разных задач

На примере семантического редактирования Alibaba показала, как модель способна создавать новый контент с участием своего капибарного талисмана. Даже если меняется бо́льшая часть изображения, сам персонаж остаётся тем же самым.

Qwen Image Edit создаёт новые версии талисмана‑капибары, которые можно использовать как стикеры в мессенджерах и других форматах

Другие сценарии применения включают генерацию новых ракурсов с поворотами объектов на 90° или 180°, а также использование трансфера стиля для создания аватаров — например, превращение портретов в изображения в духе студии Ghibli.

Модель генерирует новые ракурсы для людей, животных и предметов

Кроме того, Qwen Image Edit умеет добавлять таблички с естественными отражениями, удалять выбившиеся из причёски волосы, менять цвета букв, а также редактировать фон или одежду.

Qwen Image Edit добавляет деревянную табличку с надписью Welcome to Penguin Beach перед колонией пингвинов, создавая естественные тениДвуязычное редактирование текста с пошаговой коррекцией

Одним из главных достоинств Qwen Image Edit является умение работать с текстом — как на китайском, так и на английском языках. Система может добавлять, удалять или менять надписи прямо в изображениях, сохраняя оригинальный шрифт, размер и стиль.

Qwen Image Edit меняет надпись на плитках «Эрудита» с Health Insurance на Financial Planning, сохраняя исходный стиль

Пользователь может обвести прямоугольником неверный или нежелательный текст, и модель обновит именно отмеченные области. Иногда ей трудно даются редкие и сложные иероглифы, вроде «稽», но в таких случаях доступен пошаговый режим правок: можно выделять проблемные места и давать системе возможность дорабатывать результат до тех пор, пока он не устроит.

Инструмент заменяет неправильные символы и позволяет пользователю напрямую отмечать зоны для исправления

Alibaba утверждает, что Qwen Image Edit показывает уровень «передовых технологий» на общедоступных тестах редактирования изображений, хотя конкретных цифр компания не приводит. Модель доступна через функцию Image Editing в Qwen Chat, а также опубликована на Github, Hugging Face и Modelscope.

Появление Qwen Image Edit наглядно показывает, насколько стремительно развивается прицельное редактирование изображений и работа с текстом. Ещё недавно искусственному интеллекту было трудно изменить лишь фрагменты картинки, не разрушив её целостность.

В эту гонку включилась и компания Black Forest Labs, выпустившая Flux.1 Context — модель, сочетающую генерацию изображений по текстовым запросам и редактирование картинок.

Воспользоваться моделями GPT Image 1, Midjourney v7 или Flux 1.1 Pro Ultra можно в BotHub. По ссылке дают 100 000 бесплатных капсов, чтобы сразу приступить к работе.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”