Gemini 1.5 Pro научилась слышать. Нейросеть обрабатывает звук наравне с текстом

Генеративные модели искусственного интеллекта семейства Gemini делятся на версии Nano, Pro и Ultra. В феврале этого года компания Google анонсировала обновление своих языковых моделей до версии Gemini 1.5, а теперь открыла доступ к Gemini 1.5 Pro. Кроме того, поисковый гигант заявил, что данная модель получила одну очень важную функцию — поддержку обработки звука, включающую речь и аудиосопровождение в видеороликах.

Gemini 1.5 Pro может прослушивать загруженные аудио- и видеофайлы, генерировать информацию из так называемых earnings calls (конференций с акционерами, где обсуждаются финансовые показатели компании) без необходимости обращаться к нейросети с помощью текстовых запросов. В Google пояснили, что новая функция даёт пользователям возможность беспрепятственного кросс-модального анализа, предоставляя ценную информацию по тексту, изображениям, видео и аудио. Пользователи могут осуществлять высококачественную транскрипцию (преобразование аудио в текст), использовать для поиска аудио- и видеоконтент.

Ранее компания утверждала, что Gemini 1.5 Pro превосходит Gemini 1.0 Pro в 87% тестов и почти на одном уровне с Gemini 1.0 Ultra. Стоит отметить, что языковая модель Gemini 1.5 Pro предназначена для корпоративных пользователей и работает через платформу для создания ИИ-приложений Vertex AI, но в конечном счёте будет доступна обычным потребителям через чат-бота Gemini.

Как бы там ни было, поддержка обработки звука открывает возможности для множества других функций в будущем. Google уже предлагает трюки на смартфонах Pixel такие ИИ-функции, как транскрипция в приложении Recorder и волшебный ластик Audio Magic Eraser. В будущем возможности Gemini 1.5 Pro, связанные с обработкой звука, могут появляться на устройствах компании, обеспечивая более продвинутые звуковые функции на смартфонах.

Источник: trashbox.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”