Нейросеть распознает страх по голосу, злость — по тексту и видео

freepik.com
В НИУ ВШЭ — Санкт-Петербург, специалисты из Лаборатории языковой конвергенции разработали «словарь нового типа», предназначенный для обучения нейронных сетей в сфере распознавания эмоциональных состояний. Этот набор данных состоит из 909 видеороликов общей продолжительностью 173 минуты, которые были оценены по шести различным эмоциям в четырех вариациях: полноценное видео, звуковая дорожка, текстовый формат и видеоряд без аудиосопровождения.
Результаты показали, что наиболее эффективно эмоции распознаются при анализе текста и полноценного видеоматериала со звуком, в то время как выражение лица оказывает минимальное влияние на точность определения. Интонация голоса оказалась ключевой для передачи радости и удивления, словесное описание — для выражения злости, а сочетание текста и звука — для идентификации страха.
Этот словарь уже находит применение в музейных инициативах и при разработке чат-ботов с повышенной эмпатией. Кроме того, он служит инструментом для оценки эффективности существующих систем эмоционального распознавания: текстовые модели демонстрируют более высокую точность (50-58 %), звуковые модели — около 40 %, а анализ мимики — всего 25,6 %. Данный ресурс доступен для исследовательского использования и планируется его дальнейшее расширение.
Обратите внимание: Чем больше вы сохраняете в тайне эти пять вещей, тем счастливее будете
Сообщает naked-science.ru
Источник: samaraonline24.ru
Читайте в Дзен