Представлена генеративная видеомодель Kling 3.0: с улучшенной согласованностью сцены

Вчера, 4 февраля, компания Kling AI официально представила миру Kling 3.0 — новую версию своей генеративной видеомодели, которая получила ряд существенных улучшений по сравнению с предшественником и конкурентами, а также позволяет создавать видео длиной 15 секунд. Видео: Kling AI

Например, в отличие от версии 2.6, новая модель предоставляет пользователям возможность генерировать многокадровые ролики со сменой ракурса. Функция получила название Multi-Shot — она, по словам разработчиков, понимает сцену и кадр, описанный в текстовой инструкции, автоматически корректируя ракурсы камеры и общую композицию в зависимости от задачи. Поддерживаются как классические диалоги между двумя персонажами, так и более продвинутые техники монтажа. Видео: Kling AI

Соответственно, если раньше пользователям приходилось генерировать несколько отдельных роликов, а затем нарезать их и монтировать, то сейчас достаточно дать текстовый промпт и, по желанию, исходное изображение, после чего система сама сгенерирует нужный видеоряд.

Вторым важным нововведением Kling 3.0 выступает улучшенная согласованность элементов генерации в кадре. По словам разработчиков, новая модель способна фиксировать характеристики персонажей, предметов и окружения сцены, сохраняя их в процессе генерации различных кадров. Видео: Kling AI «Независимо от движения камеры и развития сцены, ключевые объекты остаются стабильными и неизменными на протяжении всего процесса», — говорится в официальном пресс-релизе.

Это может показаться мелочью, но на самом деле отсутствие согласованности между отдельными кадрами — ключевая проблема современных видеомоделей. В двух разных сценах один и тот же персонаж может выглядеть совершенно иначе, как и элементы окружения, что сводит на нет практичность генерации контента. Более того, теперь благодаря глубокому мультимодальному пониманию модель способна обрабатывать многокадровые референсы или даже видео в роли референса, а не только изображения, что тоже положительно скажется на согласованности сгенерированного ролика. Видео: Kling AI

Завершает же перечень нововведений обновлённая версия функции Native Audio — данный модуль обеспечивает точное воспроизведение речи персонажей в кадре. Теперь, по словам разработчиков, в сценах с участием нескольких персонажей можно будет точно определить, кто именно говорит, устраняя путаницу во время просмотра ролика.

Источник: trashbox.ru

0 0 голоса

Рейтинг новости