语音情感：探究模型表达、多任务学习和知识蒸馏

Jul, 2022

语音情感：探究模型表达、多任务学习和知识蒸馏

Speech Emotion: Investigating Model Representations, Multi-Task Learning and Knowledge Distillation

Vikramjit Mitra, Hsiang-Yun Sherry Chien, Vasudha Kowtha, Joseph Yitan Cheng, Erdrin Azemi

TL;DR本研究探讨利用预训练的声学模型，将词汇信息融合到声学语音信号中，以改善情感估计，特别是情感维度中的愉悦度估计，并且发现预训练的模型嵌入融合可比标准声学特征基线（Mel 滤波器的能量）产生更好的效果，且经测试可以推广到其他数据集上。

Abstract

Estimating dimensional emotions, such as activation, valence and dominance, from acoustic speech signals has been widely explored over the past few years. While accurate estimation of activation and dominance fro

dimensional emotions valence estimation pre-trained model fusion of representations acoustic speech signals

发现论文，激发创造

语音情感分析中的预训练模型表示及其对噪声的鲁棒性

研究了预训练模型表示在情感语音识别中的应用，探讨了情感维度的表示方式，发现情感的激活度和支配力主要依赖于声学信息，而情感的价值主要依赖于词汇信息。使用多模态融合表示生成了最先进的情感识别，改进了情感估计中的准确度，发现词汇表示比声学表示更具有鲁棒性，并证明多模态模型知识蒸馏有助于提高基于声音的模型的噪声抗干扰能力。

Mar, 2023

言语情感识别的变压器时代黎明：缩小情绪价值差距

对几种预训练模型，fine-tuned 在情感词汇维度上，作者探究了模型大小、预训练数据、泛化能力、鲁棒性、公平性和效率等方面。结果发现，transformer-based architectures 在 SER 领域表现优越，特别是在情感预测方面。

Mar, 2022

探索维度情感语音分析中显著表示和标签变异性

通过降维预训练表示空间，这篇论文展示了如何在情感识别任务中减少模型复杂性而不降低性能，并且模拟标签不确定性以提高模型的泛化能力和鲁棒性。此外，论文比较了情感模型在声学恶化下的鲁棒性，并观察到降维表示能够保持与全维表示相似性能而不发生显著的情感性能回归。

Dec, 2023

呼叫中心对话中语音连续情绪识别的声学和语言表征

本研究旨在自动检索实际呼叫中心对话中的满意度和挫折情绪，并侧重于持续追踪客户满意度以改善客户服务的工业应用。使用预训练的语音表示作为迁移学习形式，对 AlloSat 语料库进行了探索。实验结果确认了使用预训练特征可获得的性能大幅提升，并发现语言内容在满意度预测中起着明显的主导作用，并且对未知数据的泛化能力更强。此外，融合声学和语言模态的优势并不明显。该研究还探讨了性能变异性的问题，并试图从不同的视角估计此变异性：权重初始化、置信区间和注释主观性。对语言内容进行了深入分析，研究了能够解释语言模态在此任务中高贡献的可解释因素。

Oct, 2023

情感识别系统的无监督个性化：语音情感属性外显的独特特性

本研究提出了一种无监督方法来解决情感识别中需要将模型调整到特定个体言语样本上以改进情感预测的问题，并表明这种方法可以相对有效地个性化预测模型。

Jan, 2022

理解情感极性是一个联合深度学习任务

本文通过多任务学习探究情感价值和情感载体之间的相互依赖，使用预训练语言模型、生成模型和判别模型对情感价值和情感载体进行预测和比较，结果发现，在联合预测模式下，判别模型能实现情感价值和情感载体的最佳平衡，从而节省了计算资源。

May, 2023

情感模仿预测的单模态多任务融合

通过利用 Wav2Vec 2.0 框架进行语言和语音特征提取，以及 LSTM 架构对音频数据进行时序分析，本研究提出了一种在情感行为分析竞赛中对情感模仿强度进行估计的方法，取得了显著的改进。

Mar, 2024

探究语音情感识别变形金刚在语言知识方面的应用

本文研究了使用 self-attention layer（transformers）预先训练的神经网络在情感识别中的表现，并发现这些模型成功利用语言信息来提高其 valence predictions，在测试他们时应包括对语言分析。

Apr, 2022

通过提炼韵律和语言情感表达的语音情感识别

EmoDistill 是一个新颖的语音情感识别（SER）框架，利用跨模态知识蒸馏在训练期间从语音中学习强大的语言和韵律情感表示。在推断过程中，我们的方法仅使用一系列语音信号执行单模态 SER，从而减少计算开销并避免运行时转录和韵律特征提取错误。在 IEMOCAP 基准上的实验证明，我们的方法以相当大的优势胜过其他单模态和多模态技术，并实现了 77.49％的非加权准确率和 78.91％的加权准确率。详细的消融研究展示了我们方法的每个组成部分的影响。

Sep, 2023

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021