Генеральный директор DeepMind заявил, что Google объединит свои модели ИИ Gemini и Veo

В недавнем выпуске подкаста Possible, который ведёт соучредитель LinkedIn Рид Хоффман, генеральный директор Google DeepMind Демис Хассабис заявил, что Google планирует в конечном итоге объединить свои модели ИИ Gemini с моделями Veo, генерирующими видео, чтобы улучшить понимание физического мира.

«Мы с самого начала создавали Gemini, нашу базовую модель, как мультимодальную, — сказал Хассабис, — и причина, по которой мы это сделали, заключается в том, что у нас есть представление об универсальном цифровом помощнике, помощнике, который… действительно помогает вам в реальном мире».

Индустрия искусственного интеллекта постепенно переходит к «универсальным» моделям, если можно так выразиться, моделям, которые могут понимать и синтезировать множество видов медиа. Новейшие модели Gemini от Google могут генерировать аудио, а также изображения и текст, в то время как модель OpenAI по умолчанию в ChatGPT может создавать изображения, в том числе, конечно, в стиле Studio Ghibli. Amazon также объявила о планах запустить модель «всё в одном» в конце этого года.

Эти универсальные модели требуют большого количества обучающих данных — изображений, видео, аудио, текста и так далее. Хассабис предположил, что видеоданные для Veo поступают в основном с YouTube, платформы, которой владеет Google.

«По сути, просматривая видео на YouTube — много видео на YouTube — Veo 2 может понять физический мир», — сказал Хассабис.

Ранее Google сообщил TechCrunch, что его модели «могут быть» обучены на «некоторых» материалах YouTube в соответствии с соглашением с создателями. Сообщается, что Google расширил условия предоставления услуг в прошлом году, в том числе для того, чтобы компания могла использовать больше данных для обучения своих моделей ИИ.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии