В пресс-службе Минобрнауки РФ сообщили, что ученые Санкт-Петербургского Федерального исследовательского центра РАН разработали систему MASAI, способную распознавать человеческие эмоции по аудио- и видеоданным. Разработка выполнена при поддержке гранта Российского научного фонда.
Система использует комплекс нейронных сетей для анализа разнородной информации: речи, мимики, жестов и текста. Точность распознавания достигает 80%, что превышает показатели существующих аналогов. Программа идентифицирует семь базовых эмоций: радость, грусть, страх, отвращение, удивление, злость и спокойствие.
Особенностью разработки является способность работать в сложных условиях — при фоновом шуме, плохом освещении или когда человек не смотрит в камеру. Система также распознает иронию и сарказм, когда смысл сказанного не совпадает с интонацией или выражением лица.
Нейронные сети обучались на многоязычных базах данных, содержащих записи людей разного возраста, пола и национальности. Для создания русскоязычного сегмента базы привлекались молодые актеры театральных вузов.
По словам руководителя лаборатории речевых и многомодальных интерфейсов Алексея Карпова, система может быть интегрирована в различные цифровые помощники.
Источник: www.ferra.ru