Компания MiniMax представила Hailuo 02, второе поколение своей модели искусственного интеллекта для видео, с существенными улучшениями как в производительности, так и в цене.
Новая модель использует архитектуру под названием Noise-aware Compute Redistribution (NCR), которая, по словам MiniMax, повышает эффективность обучения и вывода в 2,5 раза. Архитектура NCR по-разному обрабатывает длинные видеопоследовательности в зависимости от этапа обучения. На ранних этапах обучения, когда в данные вносится много искусственного шума, видео сжимается максимально сильно. Позже, когда обучающие видео становятся более чёткими, модель обрабатывает их в полном разрешении.
Компания MiniMax позиционирует свою новую архитектуру NCR как ключевую для Hailuo 02, но пока не раскрывает технических подробностей
По сравнению с предыдущей версией Hailuo 02 имеет в три раза больше параметров и в четыре раза больше обучающих данных, при этом MiniMax также отмечает улучшение качества и разнообразия данных. Компания не раскрывает точное количество параметров или размер набора данных.
По данным MiniMax, Hailuo 02 демонстрирует явные улучшения в обработке сложных запросов и моделировании физических процессов. Компания утверждает, что на данный момент это единственная модель, способная точно генерировать сложные сцены, такие как гимнастические упражнения.
Hailuo 02 доступен в трёх вариантах: 768p на шесть секунд, 768p на десять секунд и 1080p на шесть секунд. Предыдущая модель была ограничена 720p, шестисекундными видео со скоростью 25 кадров в секунду.
В тесте «Искусственная видеоарена для анализа», где пользователи оценивают видео, созданные конкурирующими моделями ИИ, Hailuo 02 занял второе место в категории «изображение-видео». Он уступил только Seedance от Bytedance и опередил разрекламированный Google Veo 3.
По результатам пользовательских тестов Hailuo 02 превосходит Google Veo 3, несмотря на то, что Veo также поддерживает встроенную генерацию звука
По данным MiniMax, с момента запуска демоверсии в августе прошлого года пользователи создали более 3,7 миллиарда видео на платформе Hailuo. Компания описывает свой первоначальный запуск как очень случайный, но говорит, что он быстро привлёк широкое внимание авторов по всему миру.
Доступ к модели можно получить через веб-интерфейс, мобильное приложение или API. Для пользователей API создание шестисекундного видео в формате 768p стоит 0,28 доллара, а в формате 1080p — 0,49 доллара. Для сравнения, создание восьмисекундного видео в формате 1080p с помощью Google Veo 3 может стоить около 3 долларов, в зависимости от тарифного плана.
В MiniMax говорят, что они работают над улучшением скорости и стабильности генерации, а также над добавлением новых функций, помимо текущих возможностей преобразования текста в видео и изображения в видео. Конкурентоспособные платформы, такие как Runway, уже предлагают более продвинутые возможности, например отслеживание кадров.
Выпуск Hailuo 02 является частью MiniMax Week — пятидневного мероприятия, в ходе которого китайский стартап также представил языковую модель с открытым исходным кодом MiniMax-M1 с указанием количества параметров и технической документацией. В отличие от этого, технические подробности об архитектуре обучения Hailuo 02 остаются нераскрытыми.
Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник
Источник: habr.com