Исследователи НИУ ВШЭ — Санкт-Петербург Анастасия Колмогорова и Елизавета Куликова разработали эмоциональный словарь, предназначенный для обучения искусственного интеллекта.
Ранее основным инструментом систематизации языковых знаний были словари, однако нейросетям требуется принципиально иная форма представления информации. Этот датасет представляет собой новую форму лингвистического справочника, адаптированного к цифровой эпохе, отмечают разработчики.
«Большие языковые модели могут улавливать скрытые паттерны, которые мы, может быть, чувствуем на подсознательном уровне, но не можем формализовать. Наш датасет — это грамотно организованные, хорошо размеченные данные, приспособленные для работы с нейросетями. То, что раньше делал лингвист на основе словаря, теперь делают вычислительные модели, только их словарь должен быть организован по‑другому. Вместо пары „слово — толкование“ используется пара „текстовый фрагмент — эмоциональная метка“», — объясняет заведующая Лабораторией языковой конвергенции НИУ ВШЭ — Санкт‑Петербург Анастасия Колмогорова.
В датасет вошли 909 фрагментов видео общей продолжительностью 173 минуты. Каждый фрагмент разметчики оценили по шести основным эмоциям. При этом использовались четыре различных формата: полный видеофрагмент, только звук, только текст и только видео без звука. Затем исследователи сравнили, насколько мнения участников эксперимента совпадали при оценке одних и тех же эмоциональных фрагментов. Оказалось, что чаще всего люди сходились во мнениях при чтении обычного письменного текста. Когда же респонденты слушали только речь, их мнения расходились сильнее. Наихудший результат оказался у немого видео.
Детальный анализ показал, что разные эмоции по-разному проявляются в различных модальностях. Радость и удивление лучше всего распознаются через звучащую речь, где интонация играет важную роль. Злость, напротив, точнее всего идентифицируется по тексту: в 72,9% случаев по сравнению с 67,4% для аудио. Страх оказался наиболее вербальной эмоцией: он распознается по тексту и аудио в 87% случаев.
На основе эксперимента учёные создали датасет, который уже используется на практике.
«Недавно мы завершили проект для Владимиро-Суздальского музейного заповедника, где анализировали отзывы посетителей со всех платформ с помощью большой языковой модели. Раньше для такого анализа нужны были огромные размеченные выборки и мощные вычислительные ресурсы для обучения модели с нуля. Сейчас достаточно показать нейросети несколько десятков качественных образцов из нашего датасета», — рассказывает Анастасия Колмогорова.
Другой проект с использованием датасета — создание эмпатичного чат-бота для Эрмитажа.
«Мы стремимся к такому виртуальному помощнику, который сможет определять эмоции в сообщениях пользователя. Если человек радуется — бот разделит его радость, если переживает — проявит сочувствие», — описывает перспективы применения заведующая лабораторией.
Датасет также доступен для исследовательского сообщества и продолжает развиваться. Команда планирует расширять коллекцию, тестировать новые подходы к обучению моделей и изучать работу со смешанными эмоциями. Результаты исследования опубликованы в журнале «Вопросы лексикографии».
Источник: habr.com