从语音中学习情感表现

ICLRNov, 2015

Learning Representations of Affect from Speech

Sayan Ghosh, Eugene Laksana, Louis-Philippe Morency, Stefan Scherer

TL;DR本文探讨运用去噪自编码器来学习从语音中分离出言语内容以外的语调特征，实现从语音中学习情感的判别，包括基于时间窗口的快速傅里叶变换和梅尔频率倒谱系数等不同的输入方法和不同的自编码器结构，结果显示学习到的表示具备与优秀的特征提取器相当的能力。

Abstract

There has been a lot of prior work on representation learning for speech recognition applications, but not much emphasis has been given to an investigation of effective representations of affect from

speech representation learning affective traits denoising autoencoders emotion classification

发现论文，激发创造

通过对抗训练进行说话者不变的情感表示学习

本文提出了一种基于对抗训练网络来消除发言人特征并更好地表示情感的机器学习框架，在 IEMOCAP 和 CMU-MOSEI 数据集上实验表明该框架能够提高语音情感分类的准确性并增加对未知发言人的泛化能力。

Nov, 2019

变分自编码器用于学习语音情感的潜在表示：初步研究

该研究提出对于语音情感识别任务，在深度生成模型 VAE 的启发下，使用 VAEs 学习语音信号的潜在表征，并使用这种表征来分类情感，证明通过 VAEs 学习到的特征可产生情感分类的最佳结果。

Dec, 2017

不借助类别标注训练语音情感分类器

本研究旨在研究情感表示的两种范式：分类标签和连续空间中的维度描述，并提出一种仅使用维度标注的分类流程。该方法基于回归器模型，可以预测给定语音音频的维度表示的连续值向量，进而使用映射算法将其解读为情感类别。我们研究了三种特征提取器，三种神经网络结构和三种映射算法在两个不同的语料库上的绩效。研究表明，分类回归方法具有优势和局限性。

Oct, 2022

语音情感分析中的预训练模型表示及其对噪声的鲁棒性

研究了预训练模型表示在情感语音识别中的应用，探讨了情感维度的表示方式，发现情感的激活度和支配力主要依赖于声学信息，而情感的价值主要依赖于词汇信息。使用多模态融合表示生成了最先进的情感识别，改进了情感估计中的准确度，发现词汇表示比声学表示更具有鲁棒性，并证明多模态模型知识蒸馏有助于提高基于声音的模型的噪声抗干扰能力。

Mar, 2023

呼叫中心对话中语音连续情绪识别的声学和语言表征

本研究旨在自动检索实际呼叫中心对话中的满意度和挫折情绪，并侧重于持续追踪客户满意度以改善客户服务的工业应用。使用预训练的语音表示作为迁移学习形式，对 AlloSat 语料库进行了探索。实验结果确认了使用预训练特征可获得的性能大幅提升，并发现语言内容在满意度预测中起着明显的主导作用，并且对未知数据的泛化能力更强。此外，融合声学和语言模态的优势并不明显。该研究还探讨了性能变异性的问题，并试图从不同的视角估计此变异性：权重初始化、置信区间和注释主观性。对语言内容进行了深入分析，研究了能够解释语言模态在此任务中高贡献的可解释因素。

Oct, 2023

探索维度情感语音分析中显著表示和标签变异性

通过降维预训练表示空间，这篇论文展示了如何在情感识别任务中减少模型复杂性而不降低性能，并且模拟标签不确定性以提高模型的泛化能力和鲁棒性。此外，论文比较了情感模型在声学恶化下的鲁棒性，并观察到降维表示能够保持与全维表示相似性能而不发生显著的情感性能回归。

Dec, 2023

语音情感：探究模型表达、多任务学习和知识蒸馏

本研究探讨利用预训练的声学模型，将词汇信息融合到声学语音信号中，以改善情感估计，特别是情感维度中的愉悦度估计，并且发现预训练的模型嵌入融合可比标准声学特征基线（Mel 滤波器的能量）产生更好的效果，且经测试可以推广到其他数据集上。

Jul, 2022

从原始语音进行语音情感的直接建模

本文提出了一种基于并行卷积层的方法，在特征提取单元中利用多个时间分辨率来共同训练 LSTM 分类神经网络。该方法可用于处理原始语音数据的情感识别任务，并可以达到使用手工制作特征训练 CNN 的性能水平。

Apr, 2019

情感神经响应生成

通过引入情感方面的三种新方法，可以改善神经会话模型的自然语言处理能力，实现更加丰富、有趣和自然的情感化响应。

Sep, 2017

基于深度神经网络的端到端多模态情感识别

本研究提出了一种运用视觉和听觉模态的情感识别系统，其通过深度卷积神经网络提取语音特征，通过 50 层的深度残差网络提取视觉特征，并运用长短时记忆网络进行机器学习算法，通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发和自然情绪的预测，明显优于传统的以听觉和视觉手工制作特征为基础的方法。

Apr, 2017