Основная особенность модели — возможность изменять детали ролика в соответствии с текстовым запросом, а также генерировать аудиоподложку для видео.
Meta представила несколько 10-секундных примеров работы своей новой модели MovieGen. Модель способна вносить в существующий ролик целенаправленные изменения, например, добавлять в руки человека какой-либо предмет или изменять внешний вид поверхности. В одном из примеров видео от Meta женщина в гарнитуре VR была изменена так, чтобы выглядеть так, будто на ней бинокль в стиле стимпанк.
С помощью MovieGen можно генерировать аудиофрагменты вместе с видеороликами.
Meta предоставила дополнительную информацию о MovieGen в научной статье. MovieGen Video состоит из 30 миллиардов параметров, а MovieGen Audio — из 13 миллиардов параметров. MovieGen может создавать видео высокой чёткости длиной до 16 секунд, и Meta утверждает, что она превосходит конкурирующие модели по общему качеству видео.
Представители компании сообщили, что модель обучалась на лицензированных данных, а также общедоступных датасетах из сети.
Будет интересно посмотреть, сколько времени потребуется Meta, чтобы сделать MovieGen широкодоступным. В блоге анонса упоминается «потенциальный будущий релиз».
Для сравнения, компания OpenAI анонсировала свою видеомодель ИИ под названием Sora в начале этого года, но до сих пор не выложила её в открытый доступ и не сообщила о дате выхода.
Учитывая наследие Meta как компании, специализирующейся на социальных сетях, вполне возможно, что инструменты на базе MovieGen со временем появятся в Facebook, Instagram и WhatsApp.
Дисклеймер: новость подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
Компания Meta признана на территории РФ экстремистской организацией.
Источник: habr.com