不借助类别标注训练语音情感分类器

Oct, 2022

不借助类别标注训练语音情感分类器

Training speech emotion classifier without categorical annotations

Meysam Shamsi, Marie Tahon

TL;DR本研究旨在研究情感表示的两种范式：分类标签和连续空间中的维度描述，并提出一种仅使用维度标注的分类流程。该方法基于回归器模型，可以预测给定语音音频的维度表示的连续值向量，进而使用映射算法将其解读为情感类别。我们研究了三种特征提取器，三种神经网络结构和三种映射算法在两个不同的语料库上的绩效。研究表明，分类回归方法具有优势和局限性。

Abstract

There are two paradigms of emotion representation, categorical labeling and dimensional description in continuous space. Therefore, the emotion recognition task can be treated as a classification or regression. T

emotion recognition categorical labeling dimensional annotation regressor model neural network

发现论文，激发创造

将离散和连续情绪标签统一用于语音情感识别

该文提出了一种基于多任务和分层多任务学习框架，共同模拟连续和离散情感标签之间的关系，并展示了如何利用这种关系来提高情感识别任务的鲁棒性和性能。实验结果表明，我们的模型在两个广泛使用的数据集（IEMOCAP 和 MSPPodcast）上有统计显着的性能改进，并展示了该不匹配训练方法的实验结果和推理。

Oct, 2022

多任务多模态预测分类和维度情感

多任务学习在语音情绪识别中的应用与多模态系统和情绪范畴及情绪维度的预测相关，通过跨任务正则化和特征融合提高模型表现。

Dec, 2023

野外情感语音识别中的跨模态转移

本篇研究提出一种基于面部表情的情感识别的无监督学习方法，通过跨模态蒸馏将面部表情标注传递到语音领域，用于语音情感识别，实现了在未标注音频数据下学习语音情感表示的目标。

Aug, 2018

多模态语音情感识别和歧义解析

本研究采用基于特征工程的方法来解决语音情感识别的问题，并通过提取八个手工特征，将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现，我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。

Apr, 2019

探索维度情感语音分析中显著表示和标签变异性

通过降维预训练表示空间，这篇论文展示了如何在情感识别任务中减少模型复杂性而不降低性能，并且模拟标签不确定性以提高模型的泛化能力和鲁棒性。此外，论文比较了情感模型在声学恶化下的鲁棒性，并观察到降维表示能够保持与全维表示相似性能而不发生显著的情感性能回归。

Dec, 2023

从语音中学习情感表现

本文探讨运用去噪自编码器来学习从语音中分离出言语内容以外的语调特征，实现从语音中学习情感的判别，包括基于时间窗口的快速傅里叶变换和梅尔频率倒谱系数等不同的输入方法和不同的自编码器结构，结果显示学习到的表示具备与优秀的特征提取器相当的能力。

Nov, 2015

呼叫中心对话中语音连续情绪识别的声学和语言表征

本研究旨在自动检索实际呼叫中心对话中的满意度和挫折情绪，并侧重于持续追踪客户满意度以改善客户服务的工业应用。使用预训练的语音表示作为迁移学习形式，对 AlloSat 语料库进行了探索。实验结果确认了使用预训练特征可获得的性能大幅提升，并发现语言内容在满意度预测中起着明显的主导作用，并且对未知数据的泛化能力更强。此外，融合声学和语言模态的优势并不明显。该研究还探讨了性能变异性的问题，并试图从不同的视角估计此变异性：权重初始化、置信区间和注释主观性。对语言内容进行了深入分析，研究了能够解释语言模态在此任务中高贡献的可解释因素。

Oct, 2023

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

利用 Transformer 和弱监督学习建模书面故事中的情感轨迹

通过研究连续情感评价模型，我们收集、分析了儿童故事中的情感内容，提出了一种弱监督学习的方法来预测故事情感变化的连续值，通过 DeBERTa 模型改进，达到了较高的相关性和有效性。

Jun, 2024

面向标签无关情感嵌入

本文提出了一种训练方案，可以学习独立于不同标签格式、自然语言甚至不同模型架构的情感的共享潜在表示，通过实验表明，该方法能够实现所需的互操作性，而不降低预测准确率。

Dec, 2020