Команда Сбера анонсировала новый инструмент для редактирования изображений под названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). По словам разработчиков, редактор позволяет вносить изменения в изображения на основе текстовых запросов, стремясь к максимальному сохранению деталей оригинальной картинки, не затронутых правками. MALVINA уже интегрирована в сервис GigaChat и доступна для использования.
Представители Сбера утверждают, что их разработка демонстрирует превосходство в точности редактирования по сравнению с такими моделями, как GPT-4o, Gemini и Grok, особенно в задачах, требующих сохранения исходных элементов изображения. В основе MALVINA лежит диффузионный подход, в отличие от авторегрессионного, который, по мнению создателей, чаще "перерисовывает по мотивам", а не редактирует точечно.
Архитектура MALVINA включает VLM-модель (GigaChat Vision), которая обрабатывает исходное изображение и текстовый запрос, формируя инструкции для диффузионной модели. Также используется блок Mixture-of-Experts для адаптации к различным задачам редактирования. Для обучения нейросети использовались как открытые наборы данных, так и специально собранные и синтезированные примеры, общее число которых превысило 1,5 миллиона.
Для оценки качества была разработана собственная метрика VLM-score, а также проводились слепые сравнения (SBS) с участием людей, где MALVINA, по данным Сбера, показала лучшие результаты, чем Gemini. Примеры работы включают удаление и добавление объектов, изменение фона, стилизацию, реставрацию старых фото и работу с изображениями людей. Сбер предоставил открытый доступ к более чем 1100 коллажам, использованным для сравнения.
Разработчики отмечают, что, как и все генеративные модели, MALVINA может не всегда давать идеальный результат с первой попытки и иногда требует нескольких итераций или уточнения запроса. В планах на будущее — дальнейшее улучшение качества, добавление новых функций, таких как интеграция текста на изображения, и возможность работы с несколькими референсными картинками.
Источник: www.playground.ru