Все мы следим за бешеным развитием генеративного ИИ, особенно после того, как OpenAI выкатила Sora в 2024-м. Текст‑в‑видео — это уже не фантастика, а реальность, доступная всё большему числу людей. И вот Google вступает в игру со своим ответом — Veo 3, интегрированным в топовый тариф Gemini AI Ultra (250 $ в месяц). С одной стороны, технология обалденная. С другой — серьёзно задумываешься, не открыли ли мы здесь ящик Пандоры для дезинформации апокалиптических масштабов.
Что умеет Veo 3 прямо сейчас?
Это не игрушка. Модель выдает фотореалистичные короткие ролики по текстовому промпту, причем с детализацией, от которой волосы встают дыбом. Мелкие движущиеся объекты вроде шинкующегося лука? Пожалуйста. Сопровождающий, максимально естественный звук? Тоже есть. Конечно, перфекта нет — иногда выходит кривовато, артефакты проскакивают. Но! Стоит немного поколдовать с промптом и сделать несколько попыток — и вуаля, получается нечто, что с первого взгляда не отличить от реальной съемки. И это уже работает.
Главная бомба замедленного действия: загрузка своих фото
Veo 3 крут, но пока не умеет ключевую вещь, с которой справляется его предшественник Veo 2 и анимационный Whisk от Google: генерировать видео на основе загруженного изображения. Представьте: загружаете фото себя, коллеги или знаменитости — и получаете ролик, где человек делает или говорит что угодно по вашему желанию. Учитывая, что функционал уже есть в других инструментах Google, добавление его в Veo 3 кажется лишь вопросом времени.
Последствия? Очевидны в эпоху, когда соцсети задыхаются от сомнительного контента:
Не нравится начальник? Сгенерируйте ему «неуместное поведение» и отправьте в HR.
Хотите фейковых новостей? Вот вам «эксклюзивное» видео с пресс‑конференцией политика.
Бывший партнер достал? Пусть его «компромат» увидят все родственники.
И это лишь верхушка айсберга. Если создание видео с аудио конкретного человека станет делом пары кликов и небольших денег, сколько людей этим злоупотребит? Даже 0,1% пользователей — это миллионы потенциальных фейков и актов харассмента.
Почему Google не спасет положение? Слабая модерация
Google, конечно, накладывает на Gemini ограничения. Но по моему опыту тестирования чат‑ботов от больших техкомпаний, у Gemini — самые дырявые защиты из всех.
Не должна генерить hate speech? Даст примеры, если попросить правильно.
Запрет на сексуализированный контент? Легко нарисует человека в нижнем белье или купальнике по запросу «пляжный вид».
Не поддерживает незаконное? Составит топ торрент‑трекеров без проблем.
Базовые фильтры, не дающие сгенерить видео с президентами, — ничто на фоне сообществ вроде ChatGPTJailbreak (топ-2% среди сабреддитов!). Эти ребята специализируются на «разблокировке» ИИ, чтобы заставить его делать то, что запрещено гайдлайнами. Что они вытворят с Veo 3, когда доберутся до него? Страшно представить.
Водяные знаки? Не панацея
Google гордится своей системой вотермаркинга SynthID. Но на каждый такой знак тут же находятся сайты и гайды по его удалению. Даже если Google зажмет Gemini в тиски тысячи фильтров, это не остановит энтузиастов джейлбрейка, когда генерация видео уровня Veo 3 станет массовой.
Новая реальность: ничему не верь
Десятилетиями по сети гуляли кривые фотошопы. Мы научились с ними жить и проверять сомнительные картинки. С Veo 3 и ему подобными наступает новая эра. Видео больше не является «железным» доказательством. Каждый ролик в соцсетях, мессенджерах, даже в личке — теперь под подозрением. Доверять можно только контенту от проверенных новостных организаций или источников, чей процесс верификации вам известен и прозрачен.
Тем временем Google Veo 2 доступен в BotHub, и вы можете генерить видеоролики длиною 5–8 секунд в разрешении 1280×720 пкс на основе загруженной картинки! (Стоимость 43,42 ₽/1 с.) Регистрация с бонусными 100 000 токенами по этой ссылке.
Источник: habr.com