Stability AI и Arm улучшили модель Stable Audio Open, чтобы она могла работать на процессорах смартфонов. Теперь можно генерировать звук прямо на телефоне, без подключения к интернету.
Stable Audio Open, выпущенный летом 2024 года, генерирует до 47 секунд аудио из текстовых подсказок. Модель специализируется на коротких аудиозаписях, таких как барабанные ритмы, инструментальные риффы, эмбиентные звуки и записи Фоули. В отличие от коммерческой Stable Audio 2, она не предназначена для создания полноценных песен, как сервисы Suno.
В первоначальной версии Stable Audio Open для создания звука на процессорах Arm требовалось 240 секунд. Благодаря оптимизации модели и программному стеку Arm время создания 11-секундного клипа на процессорах Armv9 сократилось до менее чем 8 секунд — в 30 раз быстрее.
Реализация использует библиотеки Arm’s KleidiAI для обработки задач по генерации звука на процессорах устройств без подключения к интернету. В блоге Stability AI не приводится подробная техническая информация, и пока не было опубликовано ни одной научной статьи. Оптимизация делает модель доступной для всех, у кого есть совместимое мобильное устройство на базе ARM.
Stability AI намерена перенести свои модели изображений, видео и 3D-моделирования на мобильные устройства с помощью партнёрства с Arm. Такое внимание к мобильной разработке отличается от предыдущей стратегии компании, которая заключалась в частых выпусках моделей изображений Stable Diffusion. Лондонский стартап назначил нового генерального директора в июне 2024 года на фоне финансовых трудностей и ухода сотрудников.
Источник
Источник: habr.com