Google представила preview-версию Gemini 2.5 Flash с поддержкой нативного аудио — это означает единую модель, которая понимает голос напрямую, без отдельного преобразования в текст. Утверждается, что такой подход значительно снижает задержки в диалогах, повышает качество голоса и делает его более похожим на человеческий.
Новый голосовой ассистент реже перебивает, но быстро прерывается сам, если пользователь заговорил. Распознавание голоса пользователя лучше работает даже в сложной обстановке с другими голосами или шумом на фоне. Также улучшена работа с вызовом разных функций (например, добавление событий в календарь).
В новой версии поддерживается бесшовное переключение между разными языками. Также модель теперь распознает эмоции пользователя и подстраивает свой голос и стиль ответов для максимального соответствия настроению.
Опробовать модель можно на экспериментальной площадке Google AI Studio в разделе Stream. Даты выпуска модели в приложении Gemini App и других сервисах Google будут объявлены позже.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com