Google представил Veo 3 — нейросеть третьего поколения, которая впервые в истории AI-технологий генерирует видео вместе со звуком. Это первая в мире модель, которая сразу создает ролики со звуком. Еще и флагманского качества.
Модель от Google DeepMind стала первой, которая создает синхронизированное аудио: диалоги персонажей, звуковые эффекты и фоновую музыку прямо из текстового описания. В статье разберем, что представляет собой Google Veo 3, как ей пользоваться из России, сравним с конкурентами и покажем реальные примеры сгенерированных видео.
Что такое Veo 3
Veo 3 — это третье поколение ИИ-модели для генерации видео от Google DeepMind, анонсированное 20 мая 2025 года на конференции Google I/O. Ключевая особенность новой нейросети — способность создавать не только видеоряд, но и полноценную аудиодорожку.
Технология работает на основе диффузионной модели, которая преобразует текстовые промты в 8-секундные видеоклипы с разрешением до 4K. В отличие от предшественников Veo 2 и конкурентов вроде Sora от OpenAI, модель генерирует звук нативно — без необходимости дополнительной обработки.
Нейросеть интегрирована с инструментом Flow — специальной платформой для AI-кинематографа, которая позволяет создавать связанные сцены и поддерживать консистентность персонажей между кадрами. Google позиционирует Veo 3 как профессиональный инструмент для креаторов, маркетологов и кинематографистов.
Источник: hi-tech.mail.ru