Разработчики Runway представила модель машинного обучения Gen-3 Alpha, предназначенную для генерации коротких видео. В блоге компании отметили, что обновлённая нейросеть лучше справляется с обработкой сложных запросов и более точно изображает движение в кадре.
Модель обучали на изображениях и видеороликах, данные для обучения сопровождали аннотациями с кратким описанием происходящего. Благодаря этому пользователи могут генерировать ролики в режимах Text-toVideo, Text-to-Image и Image-to-Video. Кроме того, доступны дополнительные инструменты для редактирования:
Motion Brush. Кисть для выделения объектов на изображении, которые нейросеть анимирует.
Advanced Camera Controls. Позволяет настраивать положение камеры и получать эффект прохода кинокамеры.
Director Mode. Специальный интерфейс для удобного управления параметрами генерации и моментального просмотра результата с возможностью редактирования.
Разработчики проекта подчеркнули, что нейросеть Gen-3 Alpha снабжена системой модерации визуального контента и соответствует обновлённым внутренним правилам безопасности. Это сделано для предотвращения случаев генерации противоправного контента.
Ещё одной особенностью обновления стала функция генерации реалистичных людей, поддерживающая широкий спектр передаваемых эмоций и движений.
Вместе с моделью машинного обучения Runway предлагает услуги по интеграции и файнтюнингу. Инженеры компании помогут обучить нейросеть на дополнительных наборах данных. Это полезно для кинокомпаний и мультипликационных студий, которые планируют использовать генеративные нейросети в своей работе.
В середине июня 2024 года Luma AI выпустила нейросеть Dream Machine для генерации роликов длительностью до пяти секунд. Модель машинного обучения уже доступна пользователям. Вместе с этим разработчики опубликовали руководство по составлению запросов.
Источник: habr.com