В среду Google выпустила обновления для нескольких своих собственных моделей искусственного интеллекта для генерации медиаконтента, доступных через облачную платформу Vertex AI. Lyria, модель Google text-to-music, теперь доступна в предварительном просмотре для избранных клиентов, а модель создания видео Veo 2 компании была улучшена новыми возможностями редактирования и настройки визуальных эффектов.
Компания также запустила функцию клонирования голоса на базе Chirp 3, модели понимания аудио Google, для «разрешенных» пользователей. А генератор изображений Imagen 3 теперь обеспечивает то, что компания описывает как значительно лучшую производительность.
Обновления, приуроченные к Cloud Next, являются последним рывком Google к монополизации корпоративного рынка генеративного AI. Компания, возможно, наиболее напрямую конкурирует с Amazon, которая предлагает сопоставимую облачную платформу AI под названием Bedrock с собственным набором фирменных моделей генеративного AI.
Google позиционирует Lyria как альтернативу бесплатным музыкальным библиотекам. Используя эту модель, клиенты могут создавать песни в различных стилях и жанрах, от джазовых фортепианных соло до лоу-фай треков, заявила компания.
Chirp 3, тем временем, может синтезировать речь примерно на 35 языках. Впервые представленный ранее в этом году, Chirp 3 управляет Instant Custom Voice, который, как предполагается, может клонировать голос с 10 секундами аудио. Теперь он доступен всем. Эта модель также лежит в основе нового инструмента, запущенного в предварительной версии, называемого Transcription with Diarization, который разделяет и идентифицирует говорящих в записях с несколькими участниками.
По словам Google, для предотвращения злоупотреблений Instant Custom Voice проходит процедуру «проверки» с целью подтверждения «надлежащих разрешений на использование голоса».
Что касается Veo 2, модель теперь может удалять фоновые изображения, логотипы и объекты из существующих видео, а также расширять кадр видеоматериала (например, для преобразования ландшафтного видео в портретное). Теперь она также может настраивать углы камеры и темп в сценах, сгенерированных AI, для создания покадровых съемок, клипов в стиле дрона и многого другого, а также может выполнять интерполяцию между указанными начальными и конечными кадрами.
На данный момент эти функции Veo доступны в предварительной версии. Что касается вышеупомянутых обновлений Imagen 3, Google заявила, что они улучшают способность модели удалять объекты и восстанавливать отсутствующие или поврежденные части изображений.
Все медиа, созданные Imagen, Veo и Lyria (но не Chirp), помечены водяными знаками с использованием технологии SynthID от Google. Компания заявила, что все ее генеративные модели AI имеют «встроенные защитные механизмы» для защиты от создания вредоносного контента.
Google исторически не указывал, какие именно данные он использует для обучения своих моделей, и технологический гигант придерживается этого прецедента и сегодня. Обучающие данные, как правило, являются спорным предметом по причинам, связанным с интеллектуальной собственностью. Некоторые фирмы обучают свои модели на защищенных авторским правом работах без предварительного получения разрешения от правообладателей. Хотя эти компании утверждают, что доктрина добросовестного использования США защищает эту практику, некоторые создатели, по понятным причинам, не согласны. Многие сражаются с поставщиками в суде.
Ранее Google сообщила TechCrunch, что предлагает механизмы отказа от обучения моделей, а также политику возмещения ущерба для защиты клиентов Google Cloud и Vertex AI от споров об авторских правах, связанных с AI.
Источник
Источник: habr.com