Китайская компания Tencent опубликовала MiraData — открытый датасет видеоданных для обучения нейросетей. С его помощью разработчики могут создавать модели для генерации длинных роликов.
Авторы датасета отмечают, что анонс нейросети Sora от OpenAI сильно повлиял на область генерации видео. Ролики от Sora отличаются относительно длинным хронометражем и интенсивными движениями в кадре. Имеющиеся открытые наборы данных не позволяют обучать модели такого же уровня, поэтому инженеры Tencent решили исправить это.
Датасет MiraData включает в себя видеоданные общей продолжительностью более 16 тыс. часов, а средний хронометраж каждого ролика составляет 71 секунду. Видео подобран так, чтобы в них присутствовала высокая интенсивность движения в кадре. Каждое видео сопровождается подробной аннотацией из более чем 300 слов.
Архитектура датасета MiraData
Для оценки качества моделей, обученных на MiraData, выпустили бенчмарк MiraBench. Он использует 17 метрик, обращающих внимание на качество видео, согласованность движений, временную согласованность и другие параметры. Авторы проекта подчёркивают, что другие открытые датасеты делают упор на короткие видео, а аннотации часто не превышают 20 слов.
Сравнение MiraData с другими открытыми датасетами
Проект опубликован на GitHub, а данные можно скачать с Google Drive или Hugging Face Dataset. Вместе с этим инженеры опубликовали текст исследования на портале Arxiv.
Источник: habr.com