基于统计学的 CNN 音频视觉特征选择用于瞬时估计人类情感状态

MMAug, 2017

基于统计学的 CNN 音频视觉特征选择用于瞬时估计人类情感状态

Statistical Selection of CNN-Based Audiovisual Features for Instantaneous Estimation of Human Emotional States

Ramesh Basnet, Mohammad Tariqul Islam, Tamanna Howlader, S. M. Mahbubur Rahman, Dimitrios Hatzinakos

TL;DR使用卷积神经网络统计学习从互信息选择的最小冗余最大相关性的表情特征进行回归，可以高于传统的音频或视频特征，实时预测情感状态的准确度。

Abstract

automatic prediction of continuous-level emotional state requires selection of suitable affective features to develop a regression system

automatic prediction continuous-level emotional state affective features supervised machine learning convolutional neural networks

发现论文，激发创造

基于深度神经网络的端到端多模态情感识别

本研究提出了一种运用视觉和听觉模态的情感识别系统，其通过深度卷积神经网络提取语音特征，通过 50 层的深度残差网络提取视觉特征，并运用长短时记忆网络进行机器学习算法，通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发和自然情绪的预测，明显优于传统的以听觉和视觉手工制作特征为基础的方法。

Apr, 2017

基于多模态深度模型的电影情感反应预测

本研究旨在开发和分析多模态模型，预测观众观看电影片段时的情感反应。研究发现，通过提取 RGB 帧和光流的特征以及音频中的各种低级描述符，采用深度神经网络模型来进行情感预测更为精确。其中，光流特征比 RGB 视频更加信息含量丰富，且音频特征的预测精度高于视频特征。

Sep, 2019

利用预训练于大型人脸识别数据集上的卷积神经网络进行视频情感分类

本文提出了一种由多个利用卷积神经网络和大规模人脸识别数据集进行训练得到的强大行业级人脸识别网络组成的集成模型，该模型对视频中的空间和音频特征进行捕获，从而提高情绪识别的准确性，并在不使用视觉时间信息的情况下，将测试集的最佳结果提高了约 1％，实现了 60.03％的分类准确度。

Nov, 2017

基于注意力卷积神经网络的语音情感识别：输入特征、信号长度和演讲语音影响的研究

本文介绍了使用具有多视角学习目标函数的关注卷积神经网络进行语音情感识别的实验研究，对比了不同输入信号长度、不同类型的声学特征和不同类型的情感语音 (即兴 / 编剧) 对系统表现的影响，结果显示，除了输入特征选择外，模型的性能强烈依赖于语音数据类型，进一步实现了 IEMOCAP 上即兴语音数据的最优结果。

Jun, 2017

使用视觉、音频和文本特征进行多模态话语级情感分析

本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构，其优于单模态基线，并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。

May, 2018

基于 CNN 的移动设备面部情感分析

该研究旨在设计、部署和评估应用于移动设备的基于卷积神经网络（CNN）的面部情感分析架构，通过提出三种 CNN 架构并在野外基准面部图像数据集上进行比较评估，发现这些架构在保持较高性能的同时最小化存储需求，并且可以部署在基于移动设备上实时视频流上，同时还实现了基于预测用户情感的音乐推荐界面。

Jul, 2018

对话中语音情感识别的分段特征表示的深度学习

本文针对会话中情绪识别的复杂性，提出了一种利用双向门控循环神经网络捕捉上下文相关性和说话人之间相互作用的对话情感识别方法。实验结果表明该方法比现有的最先进方法更为有效。

Feb, 2023

从原始语音进行语音情感的直接建模

本文提出了一种基于并行卷积层的方法，在特征提取单元中利用多个时间分辨率来共同训练 LSTM 分类神经网络。该方法可用于处理原始语音数据的情感识别任务，并可以达到使用手工制作特征训练 CNN 的性能水平。

Apr, 2019

使用深度学习框架评估语音情感识别的原始波形

通过直接利用六个不同数据集的原始音频文件进行训练，本研究提出了一种模型用于识别情感，没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法，以及集成学习和深度学习技术进行评估，并与现有的方法进行比较。实验证明，使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率，从而成为了新的最先进方法。在说话人无关的音频分类问题中，该模型在 EMO-DB，RAVDESS，TESS 和 SAVEE 数据集上分别取得了 90.34%，90.42%，99.48% 和 85.76% 的准确率。

Jul, 2023

视频中多模态特征提取和基于注意力的融合情绪估计

本文介绍了一个基于多模态的情感估计框架，通过提取比赛数据集中的不同长度的视频的多模态特征，包括音频、姿态和图像，确定情感趋势。该系统在验证数据集中达到 0.361 的性能。

Mar, 2023