Google представила Gemini 3.1 Flash Live - голосовой ИИ, который почти не отличить от человека

Компания Google начала внедрение новой модели синтеза речи Gemini 3.1 Flash Live, ориентированной на голосовое общение в реальном времени. Технология уже доступна разработчикам через API и AI Studio, а также постепенно появляется в пользовательских сервисах, включая Gemini Live и поиск.

Главный акцент сделан на естественности диалога. Новая модель заметно сокращает задержку между репликами и избавляется от типичного «роботизированного» ритма. Разговор с ИИ становится ближе к живому: ответы звучат быстрее, а интонации выглядят более реалистично. По оценкам специалистов, комфортный порог задержки составляет около 300 мс, и Gemini вплотную к нему приближается.

Отдельное внимание уделено устойчивости в реальных условиях. Модель лучше справляется с шумом, перебиваниями и паузами в речи, а также точнее выполняет сложные многошаговые запросы. При этом в специализированных тестах она пока уступает узконаправленным системам, но выигрывает за счёт универсальности и способности вести диалог.

Чтобы снизить риски злоупотреблений, все сгенерированные аудио помечаются скрытыми водяными знаками SynthID. Они не слышны человеку, но позволяют определить, что речь создана нейросетью.

В ближайшее время подобные решения могут стать стандартом для голосовых ассистентов и служб поддержки. При этом грань между человеком и ИИ в разговоре будет становиться всё менее заметной, что поднимает вопрос прозрачности: должен ли пользователь заранее знать, с кем он общается.

Источник: www.playground.ru

0 0 голоса

Рейтинг новости