Современные модели компьютерного зрения с фокусом на человека (Human-centric CV) требуют миллиардов параметров, гигантских датасетов и дорогостоящего инференса. Но можно ли добиться такой же точности, не тратя миллионы?
Исследователи показали: модели можно обучать только на синтетических данных высокого качества — и при этом достигать тех же результатов. Microsoft представили DAViD — open-source фреймворк, позволяющий создавать цифровых людей с точной геометрией лиц и текстурами.
Проект демонстрирует, как синтетические датасеты могут быть эффективно использованы для решения различных задач компьютерного зрения. В частности, они позволяют определять расстояние до объектов на фотографии или в видео (Depth Prediction), вычислять ориентацию поверхностей (Normal Estimation), сегментировать фон и людей на фото и видео (Background & Human Segmentation).
Синтетические данные обеспечивают пиксельную точность разметки, что делает их идеальными для обучения моделей. Они предлагают почти бесконечное разнообразие сцен, ракурсов, освещения и поз, что позволяет создавать более универсальные и адаптивные алгоритмы. Благодаря этому, модели, обученные на таких данных, прекрасно масштабируются для использования как с нуля, так и для дообучения на специфических задачах.
Microsoft выложила всё это в опенсорс. Теперь разработчики могут использовать 300 000 сэмплов, предобученные модели и исходный код фреймворка для создания собственных решений.
ПроектСтатьяGithub
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник: habr.com