В недавнем выпуске подкаста Possible, который ведёт соучредитель LinkedIn Рид Хоффман, генеральный директор Google DeepMind Демис Хассабис заявил, что Google планирует в конечном итоге объединить свои модели ИИ Gemini с моделями Veo, генерирующими видео, чтобы улучшить понимание физического мира.
«Мы с самого начала создавали Gemini, нашу базовую модель, как мультимодальную, — сказал Хассабис, — и причина, по которой мы это сделали, заключается в том, что у нас есть представление об универсальном цифровом помощнике, помощнике, который… действительно помогает вам в реальном мире».
Индустрия искусственного интеллекта постепенно переходит к «универсальным» моделям, если можно так выразиться, моделям, которые могут понимать и синтезировать множество видов медиа. Новейшие модели Gemini от Google могут генерировать аудио, а также изображения и текст, в то время как модель OpenAI по умолчанию в ChatGPT может создавать изображения, в том числе, конечно, в стиле Studio Ghibli. Amazon также объявила о планах запустить модель «всё в одном» в конце этого года.
Эти универсальные модели требуют большого количества обучающих данных — изображений, видео, аудио, текста и так далее. Хассабис предположил, что видеоданные для Veo поступают в основном с YouTube, платформы, которой владеет Google.
«По сути, просматривая видео на YouTube — много видео на YouTube — Veo 2 может понять физический мир», — сказал Хассабис.
Ранее Google сообщил TechCrunch, что его модели «могут быть» обучены на «некоторых» материалах YouTube в соответствии с соглашением с создателями. Сообщается, что Google расширил условия предоставления услуг в прошлом году, в том числе для того, чтобы компания могла использовать больше данных для обучения своих моделей ИИ.
Источник
Источник: habr.com