После нескольких месяцев спекуляций Midjourney выпустила свою первую видеомодель. Компания называет этот шаг важной вехой на пути к системам искусственного интеллекта, способным моделировать целые 3D-миры в реальном времени.
Новая функция «Изображение в видео» позволяет пользователям превращать любое изображение Midjourney в короткий анимированный клип. Анимация выполняется с помощью новой кнопки «Анимировать» в веб-интерфейсе Midjourney. Пользователи могут выбирать между автоматическим режимом, в котором система определяет движение, и ручным режимом, в котором они сами описывают, как должна разворачиваться анимация.
Есть два основных режима: «Низкое движение» лучше всего подходит для сцен с неподвижной камерой и медленным движением, а «Высокое движение» более агрессивно анимирует как камеру, так и объект съёмки, хотя иногда это может привести к менее точным результатам, как утверждает Midjourney.
Каждое видео можно увеличить примерно на четыре секунды, в общей сложности до четырёх раз. Пользователи также могут изменять исходное изображение при каждом увеличении.
Пользователи также могут анимировать изображения, созданные за пределами Midjourney, перетащив их в панель подсказок и выбрав в качестве «начального кадра». Затем желаемое движение описывается в текстовой подсказке.
Midjourney не публикует официальные спецификации по разрешению, частоте кадров или битрейту, и пока не предусмотрено встроенное масштабирование. Однако загруженные видео представлены в виде файлов MP4 с разрешением 480p и частотой 24 кадра в секунду.
Создание видео стоит примерно в восемь раз дороже, чем создание изображения
Функция создания видео в настоящее время доступна только через веб-интерфейс. Каждое видео стоит примерно в восемь раз дороже, чем изображение, и генерирует четыре пятисекундных клипа. На практике это примерно один эквивалент изображения на секунду видео. Midjourney утверждает, что это примерно в 25 раз дешевле, чем у конкурентов.
Для подписчиков уровня «Pro» и выше Midjourney также тестирует «Режим расслабленного видео», который позволяет пользователям создавать видео, не используя минуты быстрой обработки, что потенциально снижает стоимость одной работы. Компания заявляет, что цены будут скорректированы в ближайшие недели в зависимости от спроса и нагрузки на сервер.
Midjourney описывает эту видеомодель как необходимый промежуточный этап. В конечном итоге планируется объединить видеомодели, 3D-элементы и обработку в реальном времени в единую платформу. Основатель Дэвид Хольц давно стремился создать систему, способную моделировать мир в реальном времени. Уроки, полученные при создании видеомодели, также используются в существующих инструментах Midjourney для работы с изображениями.
Конкуренция и правовое давление
В сфере видео с использованием ИИ новая модель Google Veo 3 считается лидером. Veo 3 может генерировать видео непосредственно по текстовым подсказкам, без необходимости в исходном изображении, а также добавлять голоса и звуковые эффекты, что делает её уникальной на современном рынке видео с использованием ИИ.
Тем временем Disney и Universal подали совместный иск против Midjourney, утверждая, что генератор изображений на основе ИИ создаёт несанкционированные изображения персонажей, защищённых товарными знаками, таких как Дарт Вейдер и Миньоны. В жалобе, поданной в окружной суд США в Калифорнии, Midjourney обвиняется в неоднократном копировании материалов, защищённых авторским правом, несмотря на предыдущие предупреждения.
Обе студии требуют возмещения ущерба, судебного разбирательства с участием присяжных и запрета на дальнейшее использование защищенных персонажей. Аналогичные споры об авторских правах с участием Midjourney начались в 2023 году. До сих пор Midjourney не давала публичных комментариев, и неясно, какие видеоданные использовались для обучения новой модели.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
Источник
Источник: habr.com