ByteDance представила новый релиз в области генерации видео — модель HuMo, специально ориентированную на создание видеоконтента с участием человека. Главная особенность HuMo заключается в контроле через разные модальности: текст, изображения и аудио, что позволяет создавать персонализированные и динамичные ролики с высоким уровнем детализации.
Модель поддерживает гибкие сценарии ввода. На вход можно подавать комбинации текст + изображение, текст + аудио или даже текст + изображение + аудио, что открывает широкие возможности для креативной генерации контента. HuMo также умеет сохранять образ персонажа и синхронизировать движения с аудио, что делает результат более реалистичным и естественным.
Технологическая база модели — Wan 2.1 и Whisper Large v3, что обеспечивает качественное распознавание и обработку аудио, а также точное моделирование движений человека в кадре. Благодаря этим компонентам HuMo может использоваться как для развлекательного контента, так и для профессиональных задач, например, создания обучающих или рекламных видеороликов.
Ознакомиться с HuMo и протестировать модель можно на платформе Hugging Face.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
Источник: habr.com