通过提炼韵律和语言情感表达的语音情感识别

Sep, 2023

通过提炼韵律和语言情感表达的语音情感识别

Speech Emotion Recognition with Distilled Prosodic and Linguistic Affect Representations

Debaditya Shome, Ali Etemad

TL;DREmoDistill 是一个新颖的语音情感识别（SER）框架，利用跨模态知识蒸馏在训练期间从语音中学习强大的语言和韵律情感表示。在推断过程中，我们的方法仅使用一系列语音信号执行单模态 SER，从而减少计算开销并避免运行时转录和韵律特征提取错误。在 IEMOCAP 基准上的实验证明，我们的方法以相当大的优势胜过其他单模态和多模态技术，并实现了 77.49％的非加权准确率和 78.91％的加权准确率。详细的消融研究展示了我们方法的每个组成部分的影响。

Abstract

We propose emodistill, a novel speech emotion recognition (ser) framework that leverages cross-modal knowledge distillation during trainin

emodistill speech emotion recognition ser linguistic representations prosodic representations

发现论文，激发创造

资源约束下基于数据蒸馏的语音情感识别

通过合成、缩小和提炼数据集的方法，我们提出了一种数据蒸馏框架，以促进在物联网应用中高效开发情感语音识别模型。我们的实验表明，可以有效地利用提炼后的数据集来训练情感语音识别模型，并且性能与使用原始完整的情感语音数据集开发的模型相当。

Jun, 2024

解析情绪：针对语音情感识别的全面多语言研究

使用八种语音表示模型和六种不同语言，该研究首次全面评估了基于 Transformer 的语音表示模型在跨多种语言的语音情感识别中的性能，并通过探索性实验揭示了这些模型的内部表征。实验结果表明，相较于使用所有层的语音模型特征的系统，仅使用语音模型最优层的特征平均降低了 7 个数据集上的错误率 32％。此外，还在德语和波斯语的语音情感识别方面取得了最新的成果，探测结果表明中间层的语音模型对于捕捉最重要的情感信息至关重要。

Aug, 2023

使用自监督特征进行语音情感识别

本文介绍了一种基于自上而下加自下而上架构范式的端到端情感识别系统，构建了基于自我监督特征的情感识别实验，并研究了自我监督特征模型的微调、特征的聚合和后端分类网络之间的相互作用等领域。该单模只有语音的系统不仅取得了 SOTA 结果，而且也揭示了强大且经过精细调整的自我监督声学特征的可能性，使其达到类似于同时使用语音和文本模态的 SOTA 多模态系统所达到的结果。

Feb, 2022

学习多语种表达性语音表示以进行无平行数据的韵律预测

本文提出一种语音到语音的情感保留翻译方法，利用多语言情感嵌入技术来捕捉情感信息，并在英语和法语语音信号中验证了该方法的有效性。

Jun, 2023

使用不平衡的语音数据学习情感表示，用于语音情感识别和情感文本转语音

本研究提出情感抽取器解决了在语音情感识别和情感语音合成等任务中因数据集不平衡带来的问题，并采用数据增强方法训练模型以提取出通用有效的语音情感表征，为情感语音合成任务提供更具表现力的语音。

Jun, 2023

语音情感识别中的非监督语音风格转移数据增强

该文研究了语音情感识别中数据不足的问题，提出了一种称为 EmoAug 的情感样式转移模型，该模型可以用来增强音频数据的情感表达，包括应对数据不平衡的问题，实验表明该模型在提取语音情感特征方面的效果显著优于现有方法。

Nov, 2022

使用双序列 LSTM 架构的语音情感识别

提出了一种新的双层模型，通过使用来自原始音频信号的 MFCC 特征和 mel-spectrograms 预测情感，其中一个标准 LSTM 处理 MFCC 特征，而一个新的双序列 LSTM 架构同时处理两个 mel-spectrograms，最终将输出平均，实现了在情感识别中的 6% 的提高。

Oct, 2019

无监督语音重构中解离韵律表示

本文讨论并提出一种名为 Prosody2Vec 的语音重构模型，能够从无标记的情感语音语料库中学习韵律信息表示，并能在情感语音识别和情感语音转换等任务中有效地实现对韵律特征的捕捉，同时与 HuBERT 表示相结合时表现优于最先进的方法。

Dec, 2022

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

基于深度多模态学习的口语情感识别

本文提出了一种新颖的深度多模态框架，基于句子级别的口语语言预测人类情感，通过混合式的深度多模态结构从文本和音频中提取高级特征，再使用三层深度神经网络将所有特征融合起来进行训练，实现整个结构的最优全局微调，结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。

Feb, 2018