预训练语音和音频嵌入的情感识别比较研究

Apr, 2023

预训练语音和音频嵌入的情感识别比较研究

A Comparative Study of Pre-trained Speech and Audio Embeddings for Speech Emotion Recognition

Orchid Chetia Phukan, Arun Balaji Buduru, Rajesh Sharma

TL;DR这项工作对来自八个语音预训练模型（wav2vec 2.0，data2vec，wavLM，UniSpeech-SAT，wav2clip，YAMNet，x-vector，ECAPA）的嵌入进行了比较分析。对四个语音情感数据集进行了广泛的实证分析，结果表明，最佳表现是由从训练说话者识别的 PTMs 获得的嵌入训练的算法实现的，这表明从演讲者识别 PTMs 提取嵌入的最佳性能很可能是由于模型在演讲者识别训练期间获取了有关许多语音特征（例如语调，口音，音高等）的信息。

Abstract

pre-trained models (PTMs) have shown great promise in the speech and audio domain. Embeddings leveraged from these models serve as inputs for learning algorithms with applications in various downstream tasks. One

pre-trained models speech and audio speech emotion recognition comparative analysis speaker recognition

发现论文，激发创造

利用语音 PTM、文本 LLM 和情感 TTS 进行语音情感识别

通过研究不同的预训练模型、情感文本合成和数据增强方法，本文提出了一种提高语音情感识别效果的方法，实验结果表明该方法在 IEMOCAP 数据集上具有较高的效果。

Sep, 2023

语音情感识别中的语体性表征有多贴切？以一个案例研究为例

我们进行了五个预训练模型的综合比较研究，评估了 TRILLsson 对多种语言的语音情感识别的效果，并表明 TRILLsson 能够有效地捕捉语音数据中的各种语音特征，从而实现更好的语音情感识别性能。

Feb, 2024

使用 Wav2vec 2.0 嵌入进行语音情感识别

本文提出一种基于迁移学习的语音情感识别方法，将从预训练的 wav2vec 2.0 模型中提取的特征使用简单的神经网络模型进行建模，并使用可训练的权重从多层模型中组合输出，在 IEMOCAP 和 RAVDESS 两个情感数据库上的评价表明，在情感识别性能上优于现有文献中的结果。

Apr, 2021

利用自监督预训练的声学和语言特征进行连续语音情感识别

本文研究音频和文本的预训练提取特征方法，使用 wav2vec 和 camemBERT 模型进行连续情感识别任务，同时采用 SEWA 数据集，证明 wav2vec 和 BERT 预训练特征的联合使用在处理连续 SER 任务中表现非常合适。通过实验证明，新方法的 CCC 值达到 0.825，而传统的 MFCC 和 word2vec 仅为 0.592。

Nov, 2020

言语情感识别的变压器时代黎明：缩小情绪价值差距

对几种预训练模型，fine-tuned 在情感词汇维度上，作者探究了模型大小、预训练数据、泛化能力、鲁棒性、公平性和效率等方面。结果发现，transformer-based architectures 在 SER 领域表现优越，特别是在情感预测方面。

Mar, 2022

探索 Wav2vec 2.0 微调以提高语音情绪识别

该研究介绍了使用不同的微调策略，将 Wav2Vec 2.0 应用在语音情感识别上，从而进一步提高其性能，最终成功达到了在 IEMOCAP 数据集上的最新状态下的表现，升高 7.4% 的绝对无权重准确率，同时提出了一种上下文化情感表示的微调方法 “P-TAPT”。

Oct, 2021

Vesper：一种紧凑高效的预训练语音情感识别模型

本文介绍了一种范式，将通用的大规模预训练模型（PTMs）应用于语音情绪识别任务。我们提出了一种改进的情绪特定预训练编码器 Vesper，它在 WavLM 数据库上进行了预训练，并考虑了情绪特征，通过情绪引导的掩码策略和分层交叉自监督来提高对情绪信息的敏感性，实验证明 Vesper 比 WavLM 在多个数据集上的性能更好。

Jul, 2023

预训练的语音处理模型含有类人的偏见并传播至语音情感识别

我们提出了一种名为 SpEAT 的方法，用于检测预训练模型中的偏见；使用该方法对 16 个英语语音模型进行测试，发现预训练语音模型普遍存在人类类似的偏见，并证明这些偏见会对 Speech Emotion Recognition 任务产生实际影响。

Oct, 2023

语音情感分析中的预训练模型表示及其对噪声的鲁棒性

研究了预训练模型表示在情感语音识别中的应用，探讨了情感维度的表示方式，发现情感的激活度和支配力主要依赖于声学信息，而情感的价值主要依赖于词汇信息。使用多模态融合表示生成了最先进的情感识别，改进了情感估计中的准确度，发现词汇表示比声学表示更具有鲁棒性，并证明多模态模型知识蒸馏有助于提高基于声音的模型的噪声抗干扰能力。

Mar, 2023

解析情绪：针对语音情感识别的全面多语言研究

使用八种语音表示模型和六种不同语言，该研究首次全面评估了基于 Transformer 的语音表示模型在跨多种语言的语音情感识别中的性能，并通过探索性实验揭示了这些模型的内部表征。实验结果表明，相较于使用所有层的语音模型特征的系统，仅使用语音模型最优层的特征平均降低了 7 个数据集上的错误率 32％。此外，还在德语和波斯语的语音情感识别方面取得了最新的成果，探测结果表明中间层的语音模型对于捕捉最重要的情感信息至关重要。

Aug, 2023