Разработчики представили веб-приложение NotesGPT, предназначенное для транскрибации голосовых заметок с помощью нейросетей. Один из плюсов сервиса в том, что пользователи могут самостоятельно захостить приложение.
Код веб-приложения написан на TypeScript, а в качестве модели машинного обучения используется открытая Mixtral, которая развёрнута на мощностях сервиса Together AI. Функция распознавания голоса реализована на базе нейросети Whisper, которая запущена на Replicate. Дополнительно разработчики используют Convex и Clerk.
Сейчас NotesGPT позволяет делать аудиозаписи, сохранять их и транскрибировать по запросу. В будущем разработчики планируют добавить возможность приостанавливать запись и продолжать позже и хотят перейти на более быструю версию Whisper. Кроме того, команда проекта планирует реализовать PWA, мобильное приложение и интеграцию с Notion, чтобы транскрибированные записи можно было сохранять в виде документа.
Код проекта открыт и опубликован на GitHub, а сторонние разработчики могут присоединиться к нему. В репозитории есть инструкция по развёртыванию NotesGPT на собственном сервисе.
Источник: habr.com