Учёные «Сбера» разработали серию легковесных моделей для распознавания сложных эмоций у людей

Учёные Центра практического искусственного интеллекта «Сбера» заявили, что значительно повысили точность определения эмоций на фото и видео с помощью искусственного интеллекта. По словам специалистов «Сбера», новые исследования открывают возможности для анализа сложных человеческих эмоций в реальных условиях. Результаты работы были представлены на конференции по компьютерному зрению ECCV 2024.

Специалисты «Сбера» представляли две работы. В первой работе исследователи решали задачу распознавания составных эмоций. В жизни люди редко проявляют только одну базовую эмоцию, чаще испытывают смешанные состояния, например, «радостно удивлённый» или «печально испуганный». Алгоритм из исследований российских учёных улавливает эти нюансы.

Разработка использует легковесные нейросетевые модели, такие как MT-EmotiMobileFaceNet, для извлечения эмоциональных признаков. Далее специальная постобработка сглаживает предсказания с помощью усреднения или гауссовских фильтров. Описанный подход резко повышает точность, конкурируя с более сложными и ресурсоёмкими методами.

Метод сглаживания предсказаний улучшил F1-меру классификации составных эмоций на 4,5 процентных пункта и занял второе место в престижном конкурсе Compound Expression Recognition в рамках ABAW-7, который проходил на конференции ECCV.

Исследователи называют ключевым преимуществом метода точное распознавание без дообучения модели на новых данных с составными эмоциями, что раньше было серьёзным препятствием для практического применения.

Во втором исследовании под названием «Анализ эмоций на фото и видео с использованием эффективных многозадачных нейросетевых моделей» (Multi-Task Affective Behaviour Analysis based on MT-EmotiNet Models) исследователи создавали лёгкие модели для одновременного решения нескольких задач. Эти модели распознают выражения лица, знак (valence), интенсивность (arousal) его эмоций и 12 кодов лицевых движений из классификации П. Экмана*.

Учёные разработали серию легковесных нейросетей, включая MT-EmotiDDAMFNet и MT-EmotiEffNet. Объединение признаков от двух архитектур позволило улучшить результаты базового решения конкурса ABAW-7. Точность распознавания выражений лица выросла на 7 процентных пунктов, а качество предсказания знака и интенсивности эмоций — в 1,25 раза. Суммарная метрика качества для трёх задач конкурса увеличилась в 4,5 раза. Это достижение принесло команде учёных «Сбера» серебряную медаль конкурса Multi-Task Learning Challenge.

Новая технология работает на мобильных устройствах,   но не отправляет видео лиц в облако, что экономит вычислительные ресурсы и повышает уровень безопасности персональных данных. Все модели и исходный код доступны в открытой библиотеке EmotiEffLib.

*Примечание информационной службы Хабра: исследования Пола Экмана подвергаются критике со стороны других учёных и не могут считаться эталоном определения эмоций.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии