LAION и Intel представляют инструменты, которые помогают ИИ оценивать интенсивность 40 различных эмоций

Один из последних проектов с открытым исходным кодом от LAION и Intel направлен на то, чтобы системы искусственного интеллекта лучше понимали человеческие эмоции.

Пакет «Empathic Insight» включает в себя модели и наборы данных, предназначенные для анализа изображений лиц или аудиофайлов и оценки интенсивности 40 различных категорий эмоций. Для лиц эмоции оцениваются по шкале от 0 до 7; для голосов система определяет наличие, слабую выраженность или сильную выраженность эмоций.

Модели Empathic Insight могут распознавать до 40 различных эмоций на изображениях лиц

EmoNet, лежащая в основе этих моделей, опирается на таксономию из 40 категорий эмоций, разработанную на основе «Справочника по эмоциям» — важного источника в области психологии. Исследователи расширили стандартный список базовых эмоций, добавив когнитивные состояния, такие как концентрация и замешательство, физические состояния, такие как боль и усталость, а также социальные эмоции, включая стыд и гордость. Они утверждают, что эмоции не поддаются универсальному прочтению — вместо этого мозг конструирует их из ряда сигналов. В результате их модели работают с вероятностными оценками, а не с фиксированными ярлыками.

Тренировка с использованием синтетических лиц и голосов

Для обучения моделей команда использовала более 203 000 изображений лиц и 4692 аудиозаписи. Речевые данные взяты из набора данных Laion’s Got Talent, который включает более 5000 часов синтетических записей на английском, немецком, испанском и французском языках, созданных с помощью аудиомодели OpenAI GPT-4o.

Синтетические образцы изображений из EmoNet Face Benchmark демонстрируют разнообразие обучающих данных

Чтобы избежать проблем с конфиденциальностью и повысить демографическое разнообразие, LAION полностью полагался на синтетические данные. Изображения лиц были созданы с помощью моделей преобразования текста в изображение, таких как Midjourney и Flux, а затем программно скорректированы с учётом возраста, пола и этнической принадлежности. Все аудиозаписи были проверены экспертами в области психологии, и в набор данных вошли только те оценки, с которыми согласились три независимых рецензента.

Превосходящий установленный эмоциональный искусственный интеллект

По данным LAION, модели Empathic Insight превосходят существующих конкурентов по результатам тестов. В тесте EmoNet Face HQ модель Empathic Insight Face показала более высокую корреляцию с оценками экспертов-людей, чем Gemini 2.5 Pro или API с закрытым исходным кодом, такие как Hume AI. Ключевым показателем было то, насколько оценки ИИ совпадали с оценками специалистов в области психологии.

Оценки EmoNet совпадают с оценками экспертов-людей в 40% случаев по сравнению с 25–30% для стандартных VLM и почти нулевыми показателями для случайных базовых моделей

Исследователи также сообщают о впечатляющих результатах в области распознавания эмоций в речи. Модель Empathic Insight Voice показала лучшие результаты, чем существующие аудиомодели, в тесте EmoNet Voice Benchmark, правильно определив все 40 категорий эмоций. Команда экспериментировала с различными размерами моделей и методами обработки звука, чтобы оптимизировать результаты.

Улучшенная транскрипция с помощью BUD-E Whisper

Помимо распознавания эмоций, LAION разработала BUD-E Whisper, улучшенную версию модели Whisper от OpenAI. В то время как Whisper преобразует речь в текст, BUD-E Whisper добавляет структурированные описания эмоционального тона, распознаёт голосовые всплески, такие как смех и вздохи, и оценивает характеристики говорящего, такие как возраст и пол.

Все модели EmoNet доступны по лицензии Creative Commons (для моделей) и Apache 2.0 (для кода). Наборы данных и модели можно скачать с Hugging Face. Обе модели Empathic Insight доступны в версиях Small и Large на Hugging Face, что делает их доступными для различных сценариев использования и аппаратных требований.

Intel поддерживает проект с 2021 года в рамках своей стратегии в области ИИ с открытым исходным кодом, уделяя особое внимание оптимизации моделей для оборудования Intel.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”