Kandinsky научили собирать картинку из нескольких фото

Сбер добавил в «ГигаЧат» новые инструменты для работы с изображениями на базе Kandinsky 6.0 Image. Теперь пользователь может загрузить до трех фотографий и одним запросом собрать из них новое изображение.

Модель анализирует исходные файлы, выделяет из них нужные элементы — персонажа, предмет, фон или стиль — и объединяет их в одной сцене.

Это заметный сдвиг для пользовательских ИИ-сервисов. Раньше генерация изображений чаще воспринималась как отдельный творческий режим: написал промпт, получил картинку, попробовал еще раз. Теперь такие инструменты все ближе к обычному графическому редактору, только без сложного интерфейса и профессиональных навыков. Пользователь не вырезает объект вручную, не настраивает слои и маски, а объясняет задачу словами и, при необходимости, показывает нужную область кистью.

В обновлении появился режим детального редактирования. На готовом изображении можно выделить фрагмент и указать, что с ним сделать: удалить объект, заменить его другим или добавить недостающую деталь. Такой сценарий хорошо знаком тем, кто работает с визуальным контентом каждый день. Нужно убрать лишнего человека из кадра, заменить предмет на фоне, поправить карточку товара, вписать мебель в интерьер, поменять сезонный реквизит на баннере. Раньше для этого требовался дизайнер или хотя бы уверенное владение Photoshop. Теперь часть таких задач уходит в чат.

Еще одна новая функция — автоматический подбор формата. Модель сама выбирает соотношение сторон под запрос. Для портрета это может быть вертикальный кадр, для городской панорамы — горизонтальный, для аватара или обложки — квадрат. Пользователь также может указать назначение изображения: пост для блога, баннер, карточка товара, аватар. В этом случае система должна сразу подстроить композицию под нужный формат.

Для Сбера это продолжение апрельского запуска Kandinsky 6.0 Image Pro. Тогда разработчики отдельно говорили о редактировании изображений, более точной работе с деталями и ускорении модели. В компании утверждали, что новая версия стала быстрее предыдущей более чем на 40%, а переход к архитектуре MoE позволил эффективнее обрабатывать запросы. Теперь часть возможностей, о которых тогда говорили как о ближайшем обновлении, дошла до пользовательских сценариев в «ГигаЧате».

Российский рынок при этом движется в ту же сторону, что и глобальный. Яндекс в марте добавил в «Алису AI» функцию объединения двух фотографий в одно изображение. В компании тогда приводили понятные прикладные сценарии: карточки товаров, баннеры, иллюстрации для сайтов, буклетов и соцсетей. По данным Яндекса, к весне пользователи уже оживили более 335 млн снимков и отредактировали более 23 млн изображений. О новых возможностях Алисы IT World писал ранее.

В мае компания собрала работу с изображениями в «Студию Алисы AI». Туда вошли редактирование картинок, объединение нескольких изображений, анимирование фото и выделение фрагмента изображения для работы с ним.

За рубежом похожая логика развивается у OpenAI, Google, Adobe и Midjourney. В документации OpenAI описана генерация новых изображений по одному или нескольким референсам, а также редактирование части изображения по маске. Google в Gemini 2.5 Flash Image сделал акцент на смешивании нескольких изображений, сохранении персонажа в разных сценах и точечных правках на естественном языке. Adobe Firefly и Photoshop развивают Generative Fill, где пользователь выделяет область и добавляет или заменяет объект по текстовому описанию. У Midjourney есть Editor для inpainting, pan и zoom out, а Omni Reference позволяет переносить персонажа или объект из референса, хотя официальный гайд указывает ограничение — один image reference для Omni Reference.

Обновление Kandinsky хорошо ложится в общий тренд. Рынок смещается от генерации красивых картинок к инструментам для прикладной работы с визуальным контентом. Одного промпта уже мало — пользователю нужно сохранять героя, менять фон, поправлять детали и быстро получать изображение в нужном формате.

Самый понятный эффект будет не у профессиональных дизайнеров, а у тех, кто постоянно делает визуальный контент, но не держит под рукой отдельную дизайн-команду. Интернет-магазину нужно быстро собрать карточку товара из фото модели, вещи и фона. Небольшому бренду — обновить серию баннеров без новой съемки. Автору канала — сохранить одного персонажа в разных сценах. Архитектору или дизайнеру интерьера — показать, как мебель или отделка будет смотреться в конкретном помещении. Мониторинг инфраструктуры не заканчивается на Zabbix Смартфон больше нельзя просто выхватить и выключить Облако vs On-premises: что предпочесть сегодня?

Профессиональные редакторы и дизайнерские пакеты от этого не исчезают. Но часть простой, повторяемой работы переезжает в ИИ-помощников. И здесь конкуренция идет уже не за самую красивую картинку по промпту, а за управляемость. Чем меньше случайности в результате и чем проще внести точечную правку, тем ближе ИИ-редактор к реальному рабочему инструменту.

Источник: www.it-world.ru

0 0 голоса

Рейтинг новости