自监督式语音情感识别的说话人归一化

Feb, 2022

自监督式语音情感识别的说话人归一化

Speaker Normalization for Self-supervised Speech Emotion Recognition

Itai Gat, Hagai Aronowitz, Weizhong Zhu, Edmilson Morais, Ron Hoory

TL;DR我们提出了一种基于梯度对抗学习框架的方法，该方法可以从特征表示中规范化发言者特征，从而学习语音情感识别任务，在演讲者无关和有关的设置下，我们在具有挑战性的 IEMOCAP 数据集上获得了新的最优结果。

Abstract

Large speech emotion recognition datasets are hard to obtain, and small datasets may contain biases. deep-net-based classifiers, in turn, are prone to exploit those biases and find shortcuts such as →

speech emotion recognition deep-net-based classifiers adversary learning framework speaker characteristics iemocap dataset

发现论文，激发创造

通过对抗训练进行说话者不变的情感表示学习

本文提出了一种基于对抗训练网络来消除发言人特征并更好地表示情感的机器学习框架，在 IEMOCAP 和 CMU-MOSEI 数据集上实验表明该框架能够提高语音情感分类的准确性并增加对未知发言人的泛化能力。

Nov, 2019

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

基于深度学习的情感识别数据增强技术比较研究

本文对情感识别中的流行深度学习方法进行了全面评估，发现语音信号中的长距离依赖对情感识别至关重要，而速率变换是获得最稳健性能提升的最佳数据扩增技术之一。

Nov, 2022

对话中语音情感识别的分段特征表示的深度学习

本文针对会话中情绪识别的复杂性，提出了一种利用双向门控循环神经网络捕捉上下文相关性和说话人之间相互作用的对话情感识别方法。实验结果表明该方法比现有的最先进方法更为有效。

Feb, 2023

使用不平衡的语音数据学习情感表示，用于语音情感识别和情感文本转语音

本研究提出情感抽取器解决了在语音情感识别和情感语音合成等任务中因数据集不平衡带来的问题，并采用数据增强方法训练模型以提取出通用有效的语音情感表征，为情感语音合成任务提供更具表现力的语音。

Jun, 2023

DSNet: 融合中性校准的分解孪生网络用于语音情感识别

通过引入 DSNet，一个具有中立校准的解缠结孪生网络，以满足更强大和可解释的语音情感识别模型的需求，并在两个流行的基准数据集上的实验结果证明其优越性。

Dec, 2023

使用自监督特征进行语音情感识别

本文介绍了一种基于自上而下加自下而上架构范式的端到端情感识别系统，构建了基于自我监督特征的情感识别实验，并研究了自我监督特征模型的微调、特征的聚合和后端分类网络之间的相互作用等领域。该单模只有语音的系统不仅取得了 SOTA 结果，而且也揭示了强大且经过精细调整的自我监督声学特征的可能性，使其达到类似于同时使用语音和文本模态的 SOTA 多模态系统所达到的结果。

Feb, 2022

众包标注数据的语音情感识别课程学习

该研究提出了一种方法，旨在通过针对对情感识别的深度神经网络（DNN）的训练过程进行有针对性的课程设计来最大化其效率。

May, 2018

EmoDiarize：使用卷积神经网络从语音信号中进行说话人分离和情绪识别

在先进的人工智能和人机交互时代，识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用，提供了一个综合的解决方案，解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架，将现有的说话人分离流程与基于卷积神经网络（CNN）构建的情绪识别模型相结合，以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练，包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数（MFCC）、过零率（ZCR）、均方根（RMS）以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态，展示了出色的效率。

Oct, 2023

野外情感语音识别中的跨模态转移

本篇研究提出一种基于面部表情的情感识别的无监督学习方法，通过跨模态蒸馏将面部表情标注传递到语音领域，用于语音情感识别，实现了在未标注音频数据下学习语音情感表示的目标。

Aug, 2018