Специалисты компании Trassir и института Airi провели первый этап исследований по использованию мультимодальных моделей искусственного интеллекта для анализа видео. Цель работы — создание систем, которые помогут расследовать кражи в магазинах. Об этом пресс‑служба Airi сообщила информационной службе Хабра.
В ходе исследования использовались мультимодальные модели в zero‑shot‑режиме. Это значит, что модели применялись без дополнительного обучения на специальных данных. Был создан пайплайн, который работает с ограниченной видеопамятью и умеет быстро обрабатывать видео. Он хорошо справляется с анализом сцен. Однако с короткими и быстрыми моментами возникают проблемы. Чтобы решить их, учёные предложили по‑новому обрабатывать такие эпизоды и уделять им больше внимания.
В систему добавили несколько улучшений. Среди них — распознавание сложных действий, детальный разбор важных эпизодов и поддержка потокового видео с учётом длинного временного контекста. Например, раньше система ошибочно считала, что покупатель пытается украсть товар, когда тот наклонился. После улучшения система поняла, что человек просто поднял упавшую вещь.
Анализ западных решений показал их слабые стороны. Они не учитывают особенности магазинов и плохо работают с короткими моментами. Эти выводы помогли создать более точную структуру для новой модели, которую разрабатывают Trassir и Airi.
Дальше исследователи планируют применить модели в сфере общественного питания. Они будут проверять, как сотрудники соблюдают стандарты обслуживания: анализировать речь, чистоту, внешний вид и порядок в зале.
Источник: habr.com