Разработчик Джон Вурхис (John Voorhees) протестировал модуль SpeechTranscriber для перевода речи в текст от Apple и сравнил его с похожими инструментами на основе Whisper от OpenAI. Оказалось, что решение от Apple быстрее справляется с транскрибацией.
На WWDC инженеры Apple представили обновление фреймворка Speech, предназначенного для работы с распознаванием речи. Частью обновления стал модуль для транскрибации речи SpeechTranscriber. Вурхис рассказал в блоге, что часто пользуется похожими утилитами на базе Whisper для работы с подкастами, поэтому решил сравнить их с решением от Apple.
Для тестов сын Вурхиса разработал утилиту Yap, которая использует модуль SpeechTranscriber для локальной транскрибации. Её сравнили с MacWhisper (Large V3 Turbo), MacWhisper (Large V2) и VidCap. Инструменты тестировали на одном из выпусков подкаста AppStories продолжительностью почти 34 минуты и объёмом около 7 ГБ.
Результаты тестов:
Утилита
Время транскрибации
Yap
0:45
MacWhisper (Large V3 Turbo)
1:41
MacWhisper (Large V2)
1:55
VidCap
3:55
При этом Вурхис отмечает, что у всех утилит одинаковые проблемы. Например, они плохо справляются со сложными фамилиями или названиями. В остальном качество транскрибации находится на одинаково хорошем уровне. Различия только в скорости работы.
Код утилиты Yap открыт и опубликован на GitHub. Инструмент работает только на macOS 26. Автор проекта отмечает, что это пробный проект, который создан для изучения возможностей модуля SpeechTranscriber.
Источник: habr.com