Сбер представил MALVINA — нейросетевой редактор изображений с попиксельной точностью

Команда Сбера анонсировала новый инструмент для редактирования изображений под названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). По словам разработчиков, редактор позволяет вносить изменения в изображения на основе текстовых запросов, стремясь к максимальному сохранению деталей оригинальной картинки, не затронутых правками. MALVINA уже интегрирована в сервис GigaChat и доступна для использования.

Представители Сбера утверждают, что их разработка демонстрирует превосходство в точности редактирования по сравнению с такими моделями, как GPT-4o, Gemini и Grok, особенно в задачах, требующих сохранения исходных элементов изображения. В основе MALVINA лежит диффузионный подход, в отличие от авторегрессионного, который, по мнению создателей, чаще "перерисовывает по мотивам", а не редактирует точечно.

Архитектура MALVINA включает VLM-модель (GigaChat Vision), которая обрабатывает исходное изображение и текстовый запрос, формируя инструкции для диффузионной модели. Также используется блок Mixture-of-Experts для адаптации к различным задачам редактирования. Для обучения нейросети использовались как открытые наборы данных, так и специально собранные и синтезированные примеры, общее число которых превысило 1,5 миллиона.

Для оценки качества была разработана собственная метрика VLM-score, а также проводились слепые сравнения (SBS) с участием людей, где MALVINA, по данным Сбера, показала лучшие результаты, чем Gemini. Примеры работы включают удаление и добавление объектов, изменение фона, стилизацию, реставрацию старых фото и работу с изображениями людей. Сбер предоставил открытый доступ к более чем 1100 коллажам, использованным для сравнения.

Разработчики отмечают, что, как и все генеративные модели, MALVINA может не всегда давать идеальный результат с первой попытки и иногда требует нескольких итераций или уточнения запроса. В планах на будущее — дальнейшее улучшение качества, добавление новых функций, таких как интеграция текста на изображения, и возможность работы с несколькими референсными картинками.

Источник: www.playground.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии