Китайский технологический гигант выпустил ИИ-модель, которая создает 10-секундные ролики в формате 1080p со звуковыми эффектами и речью на русском языке.
Компания Alibaba запустила публичный доступ к видеогенератору Wan 2.5, который автоматически синхронизирует изображение с аудиодорожкой. Новинка умеет создавать ролики длительностью до 10 секунд в разрешении 1080p, включая речь персонажей и фоновые звуки.
Wan 2.5 работает по текстовому запросу или загруженной фотографии. Пользователь может прописать реплики в кавычках прямо в промте, система автоматически озвучит их и синхронизирует движения губ. Модель поддерживает множество языков, включая русский, китайский и диалекты, с которыми у конкурентов часто возникают проблемы.
Генератор предлагает три варианта разрешения: 480p, 720p и 1080p. Длительность видео составляет от 3 до 10 секунд, что превышает возможности многих аналогов. Система может работать с готовыми аудиофайлами — она подстроит движения губ под загруженную речь.
Основным соперником выступает Google Veo 3, который создает 4K-видео с профессиональным качеством звука. Однако Veo 3 не поддерживает загрузку внешних аудиофайлов и демонстрирует ошибки при работе с неанглоязычными запросами.
Wan 2.5 обеспечивает более плавную анимацию и стабильные движения персонажей. Модель лучше справляется со сложными сценами и переходами между кадрами. При этом стоимость генерации примерно вдвое ниже цен Google.
Источник: hi-tech.mail.ru