Kuaishou Technology представила новую генеративную модель SVG, построенную на архитектуре Latent Diffusion, но без классического блока вариационного автоэнкодера. Отказ от VAE стал ключевым шагом, позволившим модели работать значительно быстрее и стабильнее. Вместо привычного кодировщика компания применила самообучающиеся представления, которые напрямую формируют латентное пространство без потерь точности.
Результаты оказались впечатляющими. Обучение модели идёт в 62 раза быстрее, а инференс в 35 раз. При этом качество изображений не только не ухудшилось, но даже улучшилось. Убраны искажения, которые обычно возникают при переходе между латентным и визуальным пространством. Модель генерирует картинки высокого разрешения с более естественными текстурами и плавными переходами.
SVG рассматривают как возможное новое направление развития диффузионных архитектур. Простая, энергоэффективная и быстрая альтернатива решениям с VAE открывает путь к созданию генеративных моделей, способных работать в реальном времени даже на мобильных устройствах.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Подробнее
Источник: habr.com