Китайские ученые создали систему на основе искусственного интеллекта, способную распознавать эмоции по комбинации текста, аудио и видео. Исследование опубликовано в журнале Intelligent Computing.
Для анализа эмоций, выраженных с помощью различных средств коммуникации, ученые использовали двухэтапную модель с использованием трансформеров — современных языковых моделей. Разработанная система превзошла или показала себя наравне с существующими аналогами при тестировании на открытых базах данных.
Анализ происходит следующим образом: сначала из текста, аудио и видео извлекаются ключевые признаки, затем происходит их объединение с дополнительной контекстной информацией. На первом этапе происходит первичное слияние информации, где текстовые данные взаимодействуют с аудио и видео, позволяя каждой модальности адаптироваться к другим. Затем полученный результат объединяется с исходными текстовыми данными.
На втором этапе происходит более тонкое слияние, где адаптированные нетекстовые данные усиливают текстовые, подготавливая их к финальному прогнозированию эмоций.
intelligent ComputingИсточник: www.ferra.ru