Компания ByteDance, стоящая за TikTok, представила Seedance 1.0 — новую модель создания видео с помощью ИИ.
По данным ByteDance, Seedance 1.0 превосходит существующие модели по нескольким параметрам, в том числе по тому, насколько хорошо он следует подсказкам пользователя, качеству движения и резкости изображения. На платформе для сравнительного анализа Artificial Analysis Seedance 1.0 занимает первое место как по преобразованию текста в видео, так и по преобразованию изображения в видео, опережая таких конкурентов, как Veo 3 от Google, Kling 2.0 от Kuaishou и Sora от OpenAI.
Seedance 1.0 предназначен для преобразования простых подсказок в сложные видео. Модель может работать не только с отдельными сценами, но и с более длинными последовательностями с несколькими ракурсами камеры и повторяющимися персонажами. По словам ByteDance, по сравнению с другими моделями Seedance 1.0 с большей вероятностью будет учитывать детали в подсказке — будь то конкретные движения, смена ракурса или визуальный стиль.
Крупномасштабные данные и обширная фильтрация
По данным ByteDance, Seedance 1.0 был обучен на огромной коллекции видеоклипов, собранных из общедоступных и лицензированных источников. Клипы прошли несколько этапов очистки для удаления таких элементов, как логотипы, субтитры или сцены насилия. Как автоматическая, так и ручная аннотация добавляла подробные описания, которые охватывали движения, внешний вид и стиль, что давало модели более прочную основу для обработки сложных запросов.
Процесс обучения Seedance 1.0 проходил в несколько этапов. Сначала модель обучалась на широком наборе изображений и видеоданных, затем она была адаптирована специально для задач преобразования изображений в видео. Затем последовала тонкая настройка с использованием тщательно отобранных клипов, а также обучение с подкреплением, при котором люди выбирали более качественные результаты — например, видео с более естественным движением или сцены, которые лучше соответствовали запросу. Эта обратная связь напрямую повлияла на развитие модели.
Seedance 1.0 и скорость
Одной из отличительных особенностей Seedance 1.0 является скорость при сохранении качества. Генерация пяти секунд видео в формате Full HD занимает около 41 секунды, что, по словам ByteDance, значительно быстрее, чем у сопоставимых моделей. Однако с выходом Veo 3 Fast от Google это преимущество, возможно, сошло на нет. Seedance 1.0 в настоящее время не поддерживает генерацию звука.
ByteDance планирует интегрировать Seedance 1.0 в свои собственные платформы, такие как Doubao и Jimeng. Модель ориентирована как на профессиональных пользователей, так и на широкую аудиторию и поддерживает различные сценарии использования — от маркетинга и создания контента до простого редактирования видео с помощью голосовых команд.
Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник
Источник: habr.com