无监督表示在语音情感识别中改善有监督学习

Sep, 2023

无监督表示在语音情感识别中改善有监督学习

Unsupervised Representations Improve Supervised Learning in Speech Emotion Recognition

Amirali Soltani Tehrani, Niloufar Faridani, Ramin Toosi

TL;DR该研究提出了一种创新的方法，通过将自我监督特征提取与监督分类相结合，从较小的音频片段中识别情感，提高了人机交互的情感理解能力。

Abstract

speech emotion recognition (SER) plays a pivotal role in enhancing human-computer interaction by enabling a deeper understanding of emotional states across a wide range of applications, contributing to more empathetic and effective communication. This study proposes an innovative appro

speech emotion recognition self-supervised feature extraction supervised classification audio segments convolutional neural network

发现论文，激发创造

使用自监督特征进行语音情感识别

本文介绍了一种基于自上而下加自下而上架构范式的端到端情感识别系统，构建了基于自我监督特征的情感识别实验，并研究了自我监督特征模型的微调、特征的聚合和后端分类网络之间的相互作用等领域。该单模只有语音的系统不仅取得了 SOTA 结果，而且也揭示了强大且经过精细调整的自我监督声学特征的可能性，使其达到类似于同时使用语音和文本模态的 SOTA 多模态系统所达到的结果。

Feb, 2022

探索基于自监督多视角对比学习在有限标注下的语音情感识别

提出了一种多视角的自监督学习预训练技术，用于改善情感识别在数据标注有限的情况下的性能，实验证明该框架能够提高业绩。

Jun, 2024

利用自监督预训练的声学和语言特征进行连续语音情感识别

本文研究音频和文本的预训练提取特征方法，使用 wav2vec 和 camemBERT 模型进行连续情感识别任务，同时采用 SEWA 数据集，证明 wav2vec 和 BERT 预训练特征的联合使用在处理连续 SER 任务中表现非常合适。通过实验证明，新方法的 CCC 值达到 0.825，而传统的 MFCC 和 word2vec 仅为 0.592。

Nov, 2020

揭示隐藏因素：可解释的 AI 用于提升语音情感识别中的特征

本研究提出了一种迭代特征增强方法来增强语音情感识别（SER）中机器学习模型的性能，并通过模型解释性实现了对情感决策的重要特征的识别和删除，对 SER 数据集的实验证明了该方法的有效性。

Jun, 2024

迭代特征增强用于可解释的语音情感识别

本论文提出了一种基于高效特征工程方法的监督情感识别方法，通过特征评估循环中的 Shapley 值来提高特征选择和整体框架性能，以平衡模型性能和透明度。该方法在 TESS 数据集上在情感识别方面优于人的水平和现有的机器学习方法。

May, 2024

自监督语音模型的探索：情感语料库研究

本研究通过定量分析情感语料库探索了一种流行的自我监督模型 ——wav2vec 2.0，主要证明了：1）wav2vec 2.0 似乎会丢弃不太有用于词汇识别的语用信息；2）对于情感识别，只使用中间层的表示与对多个层求平均后的表示效果相当，在某些情况下，只使用最后一层的表示效果最差；3）现有的自我监督模型可能不是利用非词汇特征的下游任务的最佳解决方案，为该领域未来的研究提供新的发现和理论基础。

Oct, 2022

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

通过半监督联合学习进行隐私保护的语音情感识别

本文提出了一种隐私保护、数据高效的基于联邦学习的语音情感识别方法，该方法结合有标记和无标记设备数据通过自我训练学习模型，实验结果表明该方法能够在低可用数据标记和高度非独立同分布的情况下学习出泛化性较强的模型，平均只需 10% 的标记数据就能达到 8.67% 的识别率提升。

Feb, 2022

使用深度神经网络进行波斯语音情感识别

本研究利用各种深度学习和机器学习技术，通过对一个 Farsi/Persian 数据集的分析，研究了 Farsi 语言中的情感识别技术，取得了 65.20% 的 UA 和 78.29% 的 WA。

Apr, 2022

使用不平衡的语音数据学习情感表示，用于语音情感识别和情感文本转语音

本研究提出情感抽取器解决了在语音情感识别和情感语音合成等任务中因数据集不平衡带来的问题，并采用数据增强方法训练模型以提取出通用有效的语音情感表征，为情感语音合成任务提供更具表现力的语音。

Jun, 2023