Модель прекрасно работает даже в неидеальных условиях: когда лицо частично закрыто маской или плохо видно, а также при наличии фонового шума.
Ученые из Центра практического Искусственного Интеллекта Сбербанка и НИУ ВШЭ представили революционную систему распознавания человеческих эмоций, которая превосходит существующие аналоги по точности на 10%. Новая разработка анализирует одновременно три параметра: мимику, голос и речь, что позволяет точнее определять эмоциональное состояние человека даже в сложных условиях.
Технология сочетает в себе два современных подхода к обработке данных: временные сверточные сети (TCN) отслеживают изменения эмоций во времени, а трансформерные архитектуры обрабатывают мультимодальные данные — звук и изображение. Такой комплексный подход обеспечивает стабильно высокую точность даже при плохом освещении, фоновом шуме или частичном отсутствии данных.
Разработка уже тестируется в нескольких практических областях. В кол-центрах система помогает анализировать настроение клиентов, повышая качество обслуживания. Маркетологи используют ее для оценки эмоциональной реакции на продукты и рекламу. В сфере безопасности технология позволяет выявлять признаки агрессии или паники, а в медицине — диагностировать депрессивные состояния по голосу и мимике пациента.
Источник: hi-tech.mail.ru