Тест: нейросеть для транскрибации речи от Apple работает быстрее Whisper от OpenAI

Разработчик Джон Вурхис (John Voorhees) протестировал модуль SpeechTranscriber для перевода речи в текст от Apple и сравнил его с похожими инструментами на основе Whisper от OpenAI. Оказалось, что решение от Apple быстрее справляется с транскрибацией.

На WWDC инженеры Apple представили обновление фреймворка Speech, предназначенного для работы с распознаванием речи. Частью обновления стал модуль для транскрибации речи SpeechTranscriber. Вурхис рассказал в блоге, что часто пользуется похожими утилитами на базе Whisper для работы с подкастами, поэтому решил сравнить их с решением от Apple.

Для тестов сын Вурхиса разработал утилиту Yap, которая использует модуль SpeechTranscriber для локальной транскрибации. Её сравнили с MacWhisper (Large V3 Turbo), MacWhisper (Large V2) и VidCap. Инструменты тестировали на одном из выпусков подкаста AppStories продолжительностью почти 34 минуты и объёмом около 7 ГБ.

Результаты тестов:

Утилита

Время транскрибации

Yap

0:45

MacWhisper (Large V3 Turbo)

1:41

MacWhisper (Large V2)

1:55

VidCap

3:55

При этом Вурхис отмечает, что у всех утилит одинаковые проблемы. Например, они плохо справляются со сложными фамилиями или названиями. В остальном качество транскрибации находится на одинаково хорошем уровне. Различия только в скорости работы.

Код утилиты Yap открыт и опубликован на GitHub. Инструмент работает только на macOS 26. Автор проекта отмечает, что это пробный проект, который создан для изучения возможностей модуля SpeechTranscriber.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии