«Сбер» представил новую модель Kandinsky 4.1 Video для генерации видео по тексту. Об этом сообщил старший вице‑президент, руководитель блока «Технологическое развитие» «Сбера» Андрей Белевцев на технологической конференции GigaConf. Информационная служба Хабра присутствовала на конференции.
Первыми доступ к Kandinsky 4.1 Video получили участники GigaConf, а также некоторые художники и дизайнеры. В ближайшее время модель станет доступна всем пользователям.
Kandinsky 4.1 Video создаёт видео продолжительностью до 10 секунд. Поддерживаются разрешения SD (720×576) и HD (1280×720). Генерация возможна как по текстовому описанию, так и по произвольному стартовому кадру. Модель поддерживает любое соотношение сторон.
В основе модели лежит архитектура диффузионного трансформера. Качество генерации улучшилось за счёт дообучения (Supervised Fine‑Tuning, SFT) на специально отобранных данных. Обучение проводилось при участии более 100 экспертов — дизайнеров, фотографов и художников с профильным образованием. Это повысило художественную выразительность, композицию и кинематографичность видеоряда.
Новая архитектура потребовала больше вычислительных ресурсов. Поэтому при разработке применялись методы дистилляции и ускорения. В результате время генерации сократилось более чем в три раза по сравнению с предыдущим вариантом. В ряде сценариев качество при этом сохранилось или улучшилось.
Источник: habr.com