为少样本情感语音识别进行预微调

Feb, 2023

为少样本情感语音识别进行预微调

Pre-Finetuning for Few-Shot Emotional Speech Recognition

Maximillian Chen, Zhou Yu

TL;DR此研究旨在通过使用预先训练的模型来提高语音模型的泛化能力，将说话者自适应视为少样本学习问题，并将 Wav2Vec2.0 在每个多类情感语音识别语料库的四个排列上进行预先微调，并通过 33,600 个 few-shot 微调试验在情感语音数据集上评估模型。

Abstract

speech models have long been known to overfit individual speakers for many classification tasks. This leads to poor generalization in settings where the speakers are out-of-domain or out-of-distribution, as is common in production environments. We view →

speech models speaker adaptation few-shot learning transfer learning emotion recognition

发现论文，激发创造

探索转移学习用于低资源情感合成语音

本文研究了如何通过微调预训练的基于深度学习的文字转语音模型来使用其他说话者的少量数据合成语音，并探讨了通过微调中性 TTS 模型以使用少量情感数据来适应模型以生成情感 TTS 的可能性。

Jan, 2019

使用 Wav2vec 2.0 嵌入进行语音情感识别

本文提出一种基于迁移学习的语音情感识别方法，将从预训练的 wav2vec 2.0 模型中提取的特征使用简单的神经网络模型进行建模，并使用可训练的权重从多层模型中组合输出，在 IEMOCAP 和 RAVDESS 两个情感数据库上的评价表明，在情感识别性能上优于现有文献中的结果。

Apr, 2021

探索 Wav2vec 2.0 微调以提高语音情绪识别

该研究介绍了使用不同的微调策略，将 Wav2Vec 2.0 应用在语音情感识别上，从而进一步提高其性能，最终成功达到了在 IEMOCAP 数据集上的最新状态下的表现，升高 7.4% 的绝对无权重准确率，同时提出了一种上下文化情感表示的微调方法 “P-TAPT”。

Oct, 2021

将 WavLM 应用于语音情感识别

最近，人们对语音自我监督模型（SSL）在下游任务中的使用越来越关注。在大规模预训练模型通常优于从头开始训练的较小模型的情况下，人们对最佳微调策略的问题仍然很普遍。本文中，我们探讨了 WavLM Large 模型在 MSP Podcast Corpus 的语音情感识别任务中的微调策略。具体而言，我们进行了一系列实验，重点研究了来自话语中的性别和语义信息的使用。然后，我们总结了我们的发现，并描述了我们用于提交 Speech Emotion Recognition Challenge 2024 的最终模型。

May, 2024

语音情绪识别和领域适应的参数高效微调

经验证，通过参数高效微调（PEFT）方法，结合精简可训练参数数量，能够有效提升语音情感识别（SER）模型的性能，并通过两阶段适应策略使模型具备更好捕捉自然情感表达的能力。

Feb, 2024

使用预训练的深度视觉模型进行情感语音识别

本文提出使用视觉深度神经网络模型进行情感语音识别的新方法，通过使用预先训练的计算机视觉深度模型的迁移学习能力，将声学特征转化为图像进行识别，并在 Berlin EMO-DB 数据集上进行实验，取得了新的最佳效果。

Apr, 2022

探索说话人注册在情感语音预测的少样本个性化中的应用

探究新型少样本个性化架构以预测情感语音，其核心贡献为激活 ' 入学 ' 编码器，通过点积注意机制使得情感编码器能够有效地进行 ' 软' 特征选择。

Jun, 2022

自监督式语音情感识别的说话人归一化

我们提出了一种基于梯度对抗学习框架的方法，该方法可以从特征表示中规范化发言者特征，从而学习语音情感识别任务，在演讲者无关和有关的设置下，我们在具有挑战性的 IEMOCAP 数据集上获得了新的最优结果。

Feb, 2022

将对比损失和非对比损失相结合，以微调预训练的语音分析模型

本研究提出了一种改进内部嵌入空间和使用对比和非对比损失的适配器来处理类内差异的方法，并将其应用于情感分类问题，发现本方法在多个任务上均优于端到端微调基线，并超过最先进的情感分类基准。

Oct, 2022

自监督语音模型的探索：情感语料库研究

本研究通过定量分析情感语料库探索了一种流行的自我监督模型 ——wav2vec 2.0，主要证明了：1）wav2vec 2.0 似乎会丢弃不太有用于词汇识别的语用信息；2）对于情感识别，只使用中间层的表示与对多个层求平均后的表示效果相当，在某些情况下，只使用最后一层的表示效果最差；3）现有的自我监督模型可能不是利用非词汇特征的下游任务的最佳解决方案，为该领域未来的研究提供新的发现和理论基础。

Oct, 2022