探索 Wav2vec 2.0 微调以提高语音情绪识别

Oct, 2021

探索 Wav2vec 2.0 微调以提高语音情绪识别

Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition

Li-Wei Chen, Alexander Rudnicky

TL;DR该研究介绍了使用不同的微调策略，将 Wav2Vec 2.0 应用在语音情感识别上，从而进一步提高其性能，最终成功达到了在 IEMOCAP 数据集上的最新状态下的表现，升高 7.4% 的绝对无权重准确率，同时提出了一种上下文化情感表示的微调方法 “P-TAPT”。

Abstract

While wav2vec 2.0 has been proposed for speech recognition (ASR), it can also be used for speech emotion recognition (SER); its performance can be significantly improved using different →

wav2vec 2.0 speech emotion recognition fine-tuning strategies tapt p-tapt

发现论文，激发创造

基于主动学习的语音情感识别的微调框架

提出了一种基于主动学习和微调的语音情感识别框架，使用任务适应性预训练和主动学习方法来提高性能和效率，并通过仅使用 20% 的样本来改善 8.45% 的准确性和减少 79% 的时间消耗。

Sep, 2023

使用 Wav2vec 2.0 嵌入进行语音情感识别

本文提出一种基于迁移学习的语音情感识别方法，将从预训练的 wav2vec 2.0 模型中提取的特征使用简单的神经网络模型进行建模，并使用可训练的权重从多层模型中组合输出，在 IEMOCAP 和 RAVDESS 两个情感数据库上的评价表明，在情感识别性能上优于现有文献中的结果。

Apr, 2021

使用任务自适应预训练的主动学习方法用于语音情感识别

通过利用主动学习 (AL) 和任务适应预训练 (TAPT) 方法，我们提出了一种名为 extsc {After} 的情感语音识别 (SER) 框架，用于增强性能和效率，实验证明我们的方法在仅使用 20％的样本时，准确率提高了 8.45％，时间消耗减少了 79％。

May, 2024

语音情绪识别和领域适应的参数高效微调

经验证，通过参数高效微调（PEFT）方法，结合精简可训练参数数量，能够有效提升语音情感识别（SER）模型的性能，并通过两阶段适应策略使模型具备更好捕捉自然情感表达的能力。

Feb, 2024

利用语音 PTM、文本 LLM 和情感 TTS 进行语音情感识别

通过研究不同的预训练模型、情感文本合成和数据增强方法，本文提出了一种提高语音情感识别效果的方法，实验结果表明该方法在 IEMOCAP 数据集上具有较高的效果。

Sep, 2023

为少样本情感语音识别进行预微调

此研究旨在通过使用预先训练的模型来提高语音模型的泛化能力，将说话者自适应视为少样本学习问题，并将 Wav2Vec2.0 在每个多类情感语音识别语料库的四个排列上进行预先微调，并通过 33,600 个 few-shot 微调试验在情感语音数据集上评估模型。

Feb, 2023

预训练语音和音频嵌入的情感识别比较研究

这项工作对来自八个语音预训练模型（wav2vec 2.0，data2vec，wavLM，UniSpeech-SAT，wav2clip，YAMNet，x-vector，ECAPA）的嵌入进行了比较分析。对四个语音情感数据集进行了广泛的实证分析，结果表明，最佳表现是由从训练说话者识别的 PTMs 获得的嵌入训练的算法实现的，这表明从演讲者识别 PTMs 提取嵌入的最佳性能很可能是由于模型在演讲者识别训练期间获取了有关许多语音特征（例如语调，口音，音高等）的信息。

Apr, 2023

基于 Wav2vec 2.0 和 BERT 的多模态情感识别的多级融合

该研究探讨了多模态情感识别问题，提出了使用迁移学习的方法，结合各种预训练模型和多级融合方法，以及多粒度特征提取的框架，从而在 IEMOCAP 数据集上取得了比最佳基线法高 1.3％的性能表现。

Jul, 2022

利用自监督预训练的声学和语言特征进行连续语音情感识别

本文研究音频和文本的预训练提取特征方法，使用 wav2vec 和 camemBERT 模型进行连续情感识别任务，同时采用 SEWA 数据集，证明 wav2vec 和 BERT 预训练特征的联合使用在处理连续 SER 任务中表现非常合适。通过实验证明，新方法的 CCC 值达到 0.825，而传统的 MFCC 和 word2vec 仅为 0.592。

Nov, 2020

言语情感识别的变压器时代黎明：缩小情绪价值差距

对几种预训练模型，fine-tuned 在情感词汇维度上，作者探究了模型大小、预训练数据、泛化能力、鲁棒性、公平性和效率等方面。结果发现，transformer-based architectures 在 SER 领域表现优越，特别是在情感预测方面。

Mar, 2022