Яндекс обновил диффузионную нейросеть YandexART до версии 1.3

Привет! Меня зовут Евгений Ляпустин, я старший разработчик в команде компьютерного зрения. Вместе с нашими коллегами из Yandex Research мы обновили диффузионную нейросеть YandexART до версии 1.3. 

Главное изменение в том, что нейросеть перешла на технологию латентной диффузии. Кроме того, датасет, на котором обучалась модель, был увеличен в 2,5 раза. Благодаря этому новая версия YandexART лучше понимает текстовые запросы и создаёт ещё более реалистичные изображения. 

YandexART 1.3 уже применяется в Шедевруме, у пользователей которого появилась возможность создавать изображения в разных форматах, таких как 16:9, 4:3 или 3:4. Позднее обновлённая нейросеть начнёт применяться и в других сервисах Яндекса.

Про архитектуру

При каскадной диффузии изображение последовательно улучшается с увеличением разрешения. Латентная диффузия работает иначе. Она формирует промежуточное латентное представление картинки в виде компактного описания, содержащего основную информацию об изображении в сжатой форме. Затем нейросеть за один шаг разворачивает код в полноценное изображение высокого разрешения.

Технология латентной диффузии потребляет меньше вычислительных ресурсов и позволяет создавать более реалистичную графику. Мы убедились в этом на практике. Обучили две версии модели в максимально схожих условиях: каскадную и латентную. И на каждом этапе обучения латентная побеждала в замерах качества и скорости.

Про датасет и обучение

Набор данных был увеличен с 330 миллионов пар картинка-текст до более чем 850 миллионов пар. Чтобы модель лучше понимала запросы пользователей, в датасет, на котором она обучалась, были добавлены синтетические тексты — сгенерированные нейросетью более подробные описания изображений. На картинке ниже можно увидеть пример синтетического текста.

Кроме того, для того чтобы YandexART учитывала больше деталей из промпта, в новой модели используются не один, а два текстовых энкодера. Первый — наш энкодер из предыдущей версии 1.2, который обучался на сопоставлении пар картинка-текст. Второй — новый для нас, на базе опенсорсного umt5_xxl. В отличие от первого, этот энкодер обучался только на текстах. Два разных энкодера дают модели сигналы разной природы.

Про внутренние замеры

По результатам SBS-замеров асессорами Яндекса, нейросеть YandexART 1.3 выигрывает в 57 процентах случаев в сравнении с Midjourney V5.2 и в 63 процентах случаев в сравнении с предыдущей версией YandexART 1.2.

Источник: habr.com

0 0 голоса
Рейтинг новости
0
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии