OpenAI показала gpt-realtime: новая эра голосовых ассистентов

OpenAI анонсировала выход GPT-Realtime — своей самой продвинутой на сегодняшний день модели, работающей по принципу «speech-to-speech». Разработчики позиционируют её как инструмент для голосовых ассистентов и автоматизированных колл-центров, готовый к внедрению в реальном продакшене.

Главный акцент сделан на точности выполнения голосовых инструкций. По результатам тестирования в бенчмарке MultiChallenge (Audio) GPT-Realtime показала 30,5 %, тогда как у предыдущей версии gpt-4o-realtime-preview от июня 2025 года было 26,5 %, а у декабрьской версии — всего 20,6 %. В другом тесте, ComplexFuncBench (Audio), модель также уверенно обошла предшественников: 66,5 % против 58,9 % и 49,7 % соответственно.

Новая система лучше воспринимает речь, допускает меньше ошибок при распознавании и заметно точнее следует сложным инструкциям, произнесённым голосом. По сути, это качественный шаг вперёд для всех сервисов, которые строятся вокруг диалогового взаимодействия — от персональных ассистентов до колл-ботов в службах поддержки. Стоимость использования GPT-Realtime установлена на уровне $32 за миллион аудио-входных токенов (и $0,40 за миллион кэшированных токенов), а генерация аудио-ответов обойдётся в $64 за миллион выходных токенов.

Как отмечают в OpenAI, модель обучалась на тщательно отобранных данных с применением специализированных reward-схем, что позволило повысить качество понимания речи и снизить число ошибок. По сути, GPT-Realtime можно рассматривать как первый по-настоящему готовый к масштабному внедрению голосовой ИИ-движок.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии