将 WavLM 应用于语音情感识别

May, 2024

Adapting WavLM for Speech Emotion Recognition

Daria Diatlova, Anton Udalov, Vitalii Shutov, Egor Spirin

TL;DR最近，人们对语音自我监督模型（SSL）在下游任务中的使用越来越关注。在大规模预训练模型通常优于从头开始训练的较小模型的情况下，人们对最佳微调策略的问题仍然很普遍。本文中，我们探讨了 WavLM Large 模型在 MSP Podcast Corpus 的语音情感识别任务中的微调策略。具体而言，我们进行了一系列实验，重点研究了来自话语中的性别和语义信息的使用。然后，我们总结了我们的发现，并描述了我们用于提交 Speech Emotion Recognition Challenge 2024 的最终模型。

Abstract

Recently, the usage of speech self-supervised models (SSL) for downstream tasks has been drawing a lot of attention. While large pre-trained models commonly outperform smaller models trained from scratch, questions regarding the optimal →

speech self-supervised models downstream tasks fine-tuning strategies wavlm large model speech emotion recognition

发现论文，激发创造

WavLM：用于完整语音处理的大规模自监督预训练

本篇论文提出了一种新的预训练模型 WavLM，通过联合学习掩蔽语音预测和去噪，利用 Transformer 结构的门控相对位置偏置来更好地捕捉输入语音的顺序，使 WavLM 不仅具有掩蔽语音预测的语音内容建模能力，同时也提高了对非 ASR 语音任务的潜力，其在 SUPERB 基准测试上取得了最先进的性能，并为各种语音处理任务带来了显着的改进。

Oct, 2021

大规模自监督学习的语音分离

本文探讨了如何扩大自监督学习（SSL）的规模，以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning，提出的模型在节省了 38% 计算成本的同时，相比于监督学习方法和基于 WavLM 的模型，在一些测试数据集上的单词错误率均有显著的改善。

Nov, 2022

针对专门的情感识别任务定制通用的大型语言模型

通过使用大型语言模型，在情感识别领域中研究了 LLMs 的性能，发现其在语言情感识别任务中具有强大的迁移性和可行性。

Oct, 2023

WavLLM：面向健壮和适应性语音大语言模型的研究

WavLLM 是一种鲁棒且自适应的具有双编码器和提示感知的语音大型语言模型，通过两阶段课程学习方法来优化，以在各种语境下进行听觉任务的泛化和执行复杂任务。

Mar, 2024

为少样本情感语音识别进行预微调

此研究旨在通过使用预先训练的模型来提高语音模型的泛化能力，将说话者自适应视为少样本学习问题，并将 Wav2Vec2.0 在每个多类情感语音识别语料库的四个排列上进行预先微调，并通过 33,600 个 few-shot 微调试验在情感语音数据集上评估模型。

Feb, 2023

用于反欺骗检测的预训练语音模型中隐藏嵌入的关注性合并

本文研究了 WavLM 模型在反欺诈任务中的多层行为，并提出了一种注意力融合方法来利用分层隐藏嵌入，结果表明微调 WavLM 能够在 ASVspoof 2019LA、2021LA 和 2021DF 的评估集上分别达到 0.65%、3.50% 和 3.19% 的最佳等错误率，值得注意的是，我们发现 WavLM 大模型的早期隐藏 Transformer 层对反欺诈任务有显著贡献，并通过使用部分预训练模型实现了计算效率。

Jun, 2024

探索基于自监督多视角对比学习在有限标注下的语音情感识别

提出了一种多视角的自监督学习预训练技术，用于改善情感识别在数据标注有限的情况下的性能，实验证明该框架能够提高业绩。

Jun, 2024

自监督语音模型的探索：情感语料库研究

本研究通过定量分析情感语料库探索了一种流行的自我监督模型 ——wav2vec 2.0，主要证明了：1）wav2vec 2.0 似乎会丢弃不太有用于词汇识别的语用信息；2）对于情感识别，只使用中间层的表示与对多个层求平均后的表示效果相当，在某些情况下，只使用最后一层的表示效果最差；3）现有的自我监督模型可能不是利用非词汇特征的下游任务的最佳解决方案，为该领域未来的研究提供新的发现和理论基础。

Oct, 2022

大型语言模型在语音合成中的提升：一项实证研究

本文综合实证研究了如何增强大型语言模型（LLMs）的语音合成能力，比较了三种 LLMs 和语音合成模型（VALL-E）的集成方法，结果显示利用 LLMs 作为文本编码器的耦合方法取得了最佳性能，比原始语音合成模型在讲话者相似度和词错误率（WER）方面表现更好。

Dec, 2023

对话 LLM：面向情感识别的对话中的上下文和情感知识调整的 LLaMA 模型

使用多模态信息、上下文和情感知识调整的对话型大型语言模型 (DialogueLLM)，通过对 13,638 个多模态（文本和视频）情感对话进行微调，克服了大型语言模型在情感识别方面的局限性，并在三个基准情感对话识别数据集上进行了全面评估。

Oct, 2023