Microsoft снова доказывает силу синтетических данных для задач компьютерного зрения

Современные модели компьютерного зрения с фокусом на человека (Human-centric CV) требуют миллиардов параметров, гигантских датасетов и дорогостоящего инференса. Но можно ли добиться такой же точности, не тратя миллионы?

Исследователи показали: модели можно обучать только на синтетических данных высокого качества — и при этом достигать тех же результатов. Microsoft представили DAViD — open-source фреймворк, позволяющий создавать цифровых людей с точной геометрией лиц и текстурами.

Проект демонстрирует, как синтетические датасеты могут быть эффективно использованы для решения различных задач компьютерного зрения. В частности, они позволяют определять расстояние до объектов на фотографии или в видео (Depth Prediction), вычислять ориентацию поверхностей (Normal Estimation), сегментировать фон и людей на фото и видео (Background & Human Segmentation).

Синтетические данные обеспечивают пиксельную точность разметки, что делает их идеальными для обучения моделей. Они предлагают почти бесконечное разнообразие сцен, ракурсов, освещения и поз, что позволяет создавать более универсальные и адаптивные алгоритмы. Благодаря этому, модели, обученные на таких данных, прекрасно масштабируются для использования как с нуля, так и для дообучения на специфических задачах.

Microsoft выложила всё это в опенсорс. Теперь разработчики могут использовать 300 000 сэмплов, предобученные модели и исходный код фреймворка для создания собственных решений.

ПроектСтатьяGithub

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии