自监督式语音情感识别的说话人归一化
本文提出了一种基于对抗训练网络来消除发言人特征并更好地表示情感的机器学习框架,在 IEMOCAP 和 CMU-MOSEI 数据集上实验表明该框架能够提高语音情感分类的准确性并增加对未知发言人的泛化能力。
Nov, 2019
本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法,该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。
Apr, 2021
本文对情感识别中的流行深度学习方法进行了全面评估,发现语音信号中的长距离依赖对情感识别至关重要,而速率变换是获得最稳健性能提升的最佳数据扩增技术之一。
Nov, 2022
本文针对会话中情绪识别的复杂性,提出了一种利用双向门控循环神经网络捕捉上下文相关性和说话人之间相互作用的对话情感识别方法。实验结果表明该方法比现有的最先进方法更为有效。
Feb, 2023
本研究提出情感抽取器解决了在语音情感识别和情感语音合成等任务中因数据集不平衡带来的问题,并采用数据增强方法训练模型以提取出通用有效的语音情感表征,为情感语音合成任务提供更具表现力的语音。
Jun, 2023
通过引入 DSNet,一个具有中立校准的解缠结孪生网络,以满足更强大和可解释的语音情感识别模型的需求,并在两个流行的基准数据集上的实验结果证明其优越性。
Dec, 2023
本文介绍了一种基于自上而下加自下而上架构范式的端到端情感识别系统,构建了基于自我监督特征的情感识别实验,并研究了自我监督特征模型的微调、特征的聚合和后端分类网络之间的相互作用等领域。该单模只有语音的系统不仅取得了 SOTA 结果,而且也揭示了强大且经过精细调整的自我监督声学特征的可能性,使其达到类似于同时使用语音和文本模态的 SOTA 多模态系统所达到的结果。
Feb, 2022
在先进的人工智能和人机交互时代,识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用,提供了一个综合的解决方案,解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架,将现有的说话人分离流程与基于卷积神经网络(CNN)构建的情绪识别模型相结合,以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练,包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数(MFCC)、过零率(ZCR)、均方根(RMS)以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态,展示了出色的效率。
Oct, 2023
本篇研究提出一种基于面部表情的情感识别的无监督学习方法,通过跨模态蒸馏将面部表情标注传递到语音领域,用于语音情感识别,实现了在未标注音频数据下学习语音情感表示的目标。
Aug, 2018