Группа «Т-Технологии» опубликовала в открытом доступе свою разработку — потоковую модель распознавания русской речи T-one. Решение уже используется в собственных сервисах компании, включая службу поддержки Т-Банка и мобильного оператора Т-Мобайл.
Модель размером 70 млн параметров показывает высокую точность даже при работе с зашумленными записями из колл-центров. По внутренним тестам компании, T-one превосходит по качеству распознавания более крупные открытые аналоги, включая Whisper Large-v3 с 1,5 млрд параметров.
Ключевое преимущество разработки — возможность обработки аудиопотоков в реальном времени с минимальной задержкой. Это позволяет использовать модель для автоматизации звонков, создания голосовых ассистентов и анализа разговоров.

«Т-Технологии» выложили в открытый доступ не только саму модель, но и код для ее запуска в производственных средах. Решение распространяется по лицензии Apache 2.0, что позволяет свободно использовать и модифицировать его для коммерческих проектов.
Разработчики отмечают, что компактный размер T-one дает возможность развернуть систему без дорогостоящего оборудования. Это снижает затраты на внедрение и делает технологию доступной даже для небольших компаний.
Источник: www.ferra.ru