对话中语音情感识别的分段特征表示的深度学习
本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法,该方法融合了文字和语音特征,并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。
Sep, 2021
本文提出了一种深度双重循环编码器模型,利用语音和文本数据进行机器情感识别,该模型表现更优,实验结果显示,当将该模型应用于 IEMOCAP 数据集时,在将数据分配到四个情感类别(愤怒,高兴,悲伤和中性)方面,准确率在 68.8%至 71.8%之间。
Oct, 2018
本文提出使用视觉深度神经网络模型进行情感语音识别的新方法,通过使用预先训练的计算机视觉深度模型的迁移学习能力,将声学特征转化为图像进行识别,并在 Berlin EMO-DB 数据集上进行实验,取得了新的最佳效果。
Apr, 2022
本文提出了一种基于层次化门控循环单元的框架,解决了对话系统中表述级情感识别面临的诸多挑战,包括同一词汇在不同上下文中可能带有不同情感、一些情感在一般对话中很少出现以及难以捕捉到长程的上下文信息等,通过在底层 GRU 模型对词汇级输入进行建模,然后在上层 GRU 模型中捕捉表述级嵌入的上下文信息来解决这些挑战,并且进一步提出了 HiGRU-f 和 HiGRU-sf 两种变体来更好地利用词 / 表述级别的信息和长程上下文信息,并在三个对话情感数据集上进行了实验,结果表明我们提出的 HiGRU 模型在每个数据集上都至少比现有的最先进方法提高了 6.0%的效果。
Apr, 2019
通过直接利用六个不同数据集的原始音频文件进行训练,本研究提出了一种模型用于识别情感,没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法,以及集成学习和深度学习技术进行评估,并与现有的方法进行比较。实验证明,使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率,从而成为了新的最先进方法。在说话人无关的音频分类问题中,该模型在 EMO-DB,RAVDESS,TESS 和 SAVEE 数据集上分别取得了 90.34%,90.42%,99.48% 和 85.76% 的准确率。
Jul, 2023
本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法,该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。
Apr, 2021
本文提出了一种新颖的深度多模态框架,基于句子级别的口语语言预测人类情感,通过混合式的深度多模态结构从文本和音频中提取高级特征,再使用三层深度神经网络将所有特征融合起来进行训练,实现整个结构的最优全局微调,结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。
Feb, 2018
在先进的人工智能和人机交互时代,识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用,提供了一个综合的解决方案,解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架,将现有的说话人分离流程与基于卷积神经网络(CNN)构建的情绪识别模型相结合,以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练,包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数(MFCC)、过零率(ZCR)、均方根(RMS)以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态,展示了出色的效率。
Oct, 2023
本文提出了一种基于并行卷积层的方法,在特征提取单元中利用多个时间分辨率来共同训练 LSTM 分类神经网络。该方法可用于处理原始语音数据的情感识别任务,并可以达到使用手工制作特征训练 CNN 的性能水平。
Apr, 2019