Один из последних проектов с открытым исходным кодом от LAION и Intel направлен на то, чтобы системы искусственного интеллекта лучше понимали человеческие эмоции.
Пакет «Empathic Insight» включает в себя модели и наборы данных, предназначенные для анализа изображений лиц или аудиофайлов и оценки интенсивности 40 различных категорий эмоций. Для лиц эмоции оцениваются по шкале от 0 до 7; для голосов система определяет наличие, слабую выраженность или сильную выраженность эмоций.
Модели Empathic Insight могут распознавать до 40 различных эмоций на изображениях лиц
EmoNet, лежащая в основе этих моделей, опирается на таксономию из 40 категорий эмоций, разработанную на основе «Справочника по эмоциям» — важного источника в области психологии. Исследователи расширили стандартный список базовых эмоций, добавив когнитивные состояния, такие как концентрация и замешательство, физические состояния, такие как боль и усталость, а также социальные эмоции, включая стыд и гордость. Они утверждают, что эмоции не поддаются универсальному прочтению — вместо этого мозг конструирует их из ряда сигналов. В результате их модели работают с вероятностными оценками, а не с фиксированными ярлыками.
Тренировка с использованием синтетических лиц и голосов
Для обучения моделей команда использовала более 203 000 изображений лиц и 4692 аудиозаписи. Речевые данные взяты из набора данных Laion’s Got Talent, который включает более 5000 часов синтетических записей на английском, немецком, испанском и французском языках, созданных с помощью аудиомодели OpenAI GPT-4o.
Синтетические образцы изображений из EmoNet Face Benchmark демонстрируют разнообразие обучающих данных
Чтобы избежать проблем с конфиденциальностью и повысить демографическое разнообразие, LAION полностью полагался на синтетические данные. Изображения лиц были созданы с помощью моделей преобразования текста в изображение, таких как Midjourney и Flux, а затем программно скорректированы с учётом возраста, пола и этнической принадлежности. Все аудиозаписи были проверены экспертами в области психологии, и в набор данных вошли только те оценки, с которыми согласились три независимых рецензента.
Превосходящий установленный эмоциональный искусственный интеллект
По данным LAION, модели Empathic Insight превосходят существующих конкурентов по результатам тестов. В тесте EmoNet Face HQ модель Empathic Insight Face показала более высокую корреляцию с оценками экспертов-людей, чем Gemini 2.5 Pro или API с закрытым исходным кодом, такие как Hume AI. Ключевым показателем было то, насколько оценки ИИ совпадали с оценками специалистов в области психологии.
Оценки EmoNet совпадают с оценками экспертов-людей в 40% случаев по сравнению с 25–30% для стандартных VLM и почти нулевыми показателями для случайных базовых моделей
Исследователи также сообщают о впечатляющих результатах в области распознавания эмоций в речи. Модель Empathic Insight Voice показала лучшие результаты, чем существующие аудиомодели, в тесте EmoNet Voice Benchmark, правильно определив все 40 категорий эмоций. Команда экспериментировала с различными размерами моделей и методами обработки звука, чтобы оптимизировать результаты.
Улучшенная транскрипция с помощью BUD-E Whisper
Помимо распознавания эмоций, LAION разработала BUD-E Whisper, улучшенную версию модели Whisper от OpenAI. В то время как Whisper преобразует речь в текст, BUD-E Whisper добавляет структурированные описания эмоционального тона, распознаёт голосовые всплески, такие как смех и вздохи, и оценивает характеристики говорящего, такие как возраст и пол.
Все модели EmoNet доступны по лицензии Creative Commons (для моделей) и Apache 2.0 (для кода). Наборы данных и модели можно скачать с Hugging Face. Обе модели Empathic Insight доступны в версиях Small и Large на Hugging Face, что делает их доступными для различных сценариев использования и аппаратных требований.
Intel поддерживает проект с 2021 года в рамках своей стратегии в области ИИ с открытым исходным кодом, уделяя особое внимание оптимизации моделей для оборудования Intel.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
Источник
Источник: habr.com