从语音中学习情感表现
本文提出了一种基于对抗训练网络来消除发言人特征并更好地表示情感的机器学习框架,在 IEMOCAP 和 CMU-MOSEI 数据集上实验表明该框架能够提高语音情感分类的准确性并增加对未知发言人的泛化能力。
Nov, 2019
该研究提出对于语音情感识别任务,在深度生成模型 VAE 的启发下,使用 VAEs 学习语音信号的潜在表征,并使用这种表征来分类情感,证明通过 VAEs 学习到的特征可产生情感分类的最佳结果。
Dec, 2017
本研究旨在研究情感表示的两种范式:分类标签和连续空间中的维度描述,并提出一种仅使用维度标注的分类流程。该方法基于回归器模型,可以预测给定语音音频的维度表示的连续值向量,进而使用映射算法将其解读为情感类别。我们研究了三种特征提取器,三种神经网络结构和三种映射算法在两个不同的语料库上的绩效。研究表明,分类回归方法具有优势和局限性。
Oct, 2022
研究了预训练模型表示在情感语音识别中的应用,探讨了情感维度的表示方式,发现情感的激活度和支配力主要依赖于声学信息,而情感的价值主要依赖于词汇信息。使用多模态融合表示生成了最先进的情感识别,改进了情感估计中的准确度,发现词汇表示比声学表示更具有鲁棒性,并证明多模态模型知识蒸馏有助于提高基于声音的模型的噪声抗干扰能力。
Mar, 2023
本研究旨在自动检索实际呼叫中心对话中的满意度和挫折情绪,并侧重于持续追踪客户满意度以改善客户服务的工业应用。使用预训练的语音表示作为迁移学习形式,对 AlloSat 语料库进行了探索。实验结果确认了使用预训练特征可获得的性能大幅提升,并发现语言内容在满意度预测中起着明显的主导作用,并且对未知数据的泛化能力更强。此外,融合声学和语言模态的优势并不明显。该研究还探讨了性能变异性的问题,并试图从不同的视角估计此变异性:权重初始化、置信区间和注释主观性。对语言内容进行了深入分析,研究了能够解释语言模态在此任务中高贡献的可解释因素。
Oct, 2023
通过降维预训练表示空间,这篇论文展示了如何在情感识别任务中减少模型复杂性而不降低性能,并且模拟标签不确定性以提高模型的泛化能力和鲁棒性。此外,论文比较了情感模型在声学恶化下的鲁棒性,并观察到降维表示能够保持与全维表示相似性能而不发生显著的情感性能回归。
Dec, 2023
本研究探讨利用预训练的声学模型,将词汇信息融合到声学语音信号中,以改善情感估计,特别是情感维度中的愉悦度估计,并且发现预训练的模型嵌入融合可比标准声学特征基线(Mel 滤波器的能量)产生更好的效果,且经测试可以推广到其他数据集上。
Jul, 2022
本文提出了一种基于并行卷积层的方法,在特征提取单元中利用多个时间分辨率来共同训练 LSTM 分类神经网络。该方法可用于处理原始语音数据的情感识别任务,并可以达到使用手工制作特征训练 CNN 的性能水平。
Apr, 2019
本研究提出了一种运用视觉和听觉模态的情感识别系统,其通过深度卷积神经网络提取语音特征,通过 50 层的深度残差网络提取视觉特征,并运用长短时记忆网络进行机器学习算法,通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发和自然情绪的预测,明显优于传统的以听觉和视觉手工制作特征为基础的方法。
Apr, 2017