Kuaishou Technology представила новую генеративную модель SVG

Kuaishou Technology представила новую генеративную модель SVG, построенную на архитектуре Latent Diffusion, но без классического блока вариационного автоэнкодера. Отказ от VAE стал ключевым шагом, позволившим модели работать значительно быстрее и стабильнее. Вместо привычного кодировщика компания применила самообучающиеся представления, которые напрямую формируют латентное пространство без потерь точности.

Результаты оказались впечатляющими. Обучение модели идёт в 62 раза быстрее, а инференс в 35 раз. При этом качество изображений не только не ухудшилось, но даже улучшилось. Убраны искажения, которые обычно возникают при переходе между латентным и визуальным пространством. Модель генерирует картинки высокого разрешения с более естественными текстурами и плавными переходами.

SVG рассматривают как возможное новое направление развития диффузионных архитектур. Простая, энергоэффективная и быстрая альтернатива решениям с VAE открывает путь к созданию генеративных моделей, способных работать в реальном времени даже на мобильных устройствах.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Подробнее

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии