Генеративные модели искусственного интеллекта семейства Gemini делятся на версии Nano, Pro и Ultra. В феврале этого года компания Google анонсировала обновление своих языковых моделей до версии Gemini 1.5, а теперь открыла доступ к Gemini 1.5 Pro. Кроме того, поисковый гигант заявил, что данная модель получила одну очень важную функцию — поддержку обработки звука, включающую речь и аудиосопровождение в видеороликах.
Gemini 1.5 Pro может прослушивать загруженные аудио- и видеофайлы, генерировать информацию из так называемых earnings calls (конференций с акционерами, где обсуждаются финансовые показатели компании) без необходимости обращаться к нейросети с помощью текстовых запросов. В Google пояснили, что новая функция даёт пользователям возможность беспрепятственного кросс-модального анализа, предоставляя ценную информацию по тексту, изображениям, видео и аудио. Пользователи могут осуществлять высококачественную транскрипцию (преобразование аудио в текст), использовать для поиска аудио- и видеоконтент.
Ранее компания утверждала, что Gemini 1.5 Pro превосходит Gemini 1.0 Pro в 87% тестов и почти на одном уровне с Gemini 1.0 Ultra. Стоит отметить, что языковая модель Gemini 1.5 Pro предназначена для корпоративных пользователей и работает через платформу для создания ИИ-приложений Vertex AI, но в конечном счёте будет доступна обычным потребителям через чат-бота Gemini.
Как бы там ни было, поддержка обработки звука открывает возможности для множества других функций в будущем. Google уже предлагает трюки на смартфонах Pixel такие ИИ-функции, как транскрипция в приложении Recorder и волшебный ластик Audio Magic Eraser. В будущем возможности Gemini 1.5 Pro, связанные с обработкой звука, могут появляться на устройствах компании, обеспечивая более продвинутые звуковые функции на смартфонах.
Источник: trashbox.ru