使用 Wav2vec 2.0 嵌入进行语音情感识别

Apr, 2021

使用 Wav2vec 2.0 嵌入进行语音情感识别

Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings

Leonardo Pepino, Pablo Riera, Luciana Ferrer

TL;DR本文提出一种基于迁移学习的语音情感识别方法，将从预训练的 wav2vec 2.0 模型中提取的特征使用简单的神经网络模型进行建模，并使用可训练的权重从多层模型中组合输出，在 IEMOCAP 和 RAVDESS 两个情感数据库上的评价表明，在情感识别性能上优于现有文献中的结果。

Abstract

emotion recognition datasets are relatively small, making the use of the more sophisticated deep learning approaches challenging. In this work, we propose a transfer learning method for speech →

emotion recognition transfer learning wav2vec 2.0 neural networks performance

发现论文，激发创造

基于 Wav2vec 2.0 和 BERT 的多模态情感识别的多级融合

该研究探讨了多模态情感识别问题，提出了使用迁移学习的方法，结合各种预训练模型和多级融合方法，以及多粒度特征提取的框架，从而在 IEMOCAP 数据集上取得了比最佳基线法高 1.3％的性能表现。

Jul, 2022

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

emotion2vec：自监督预训练语音情感表征

我们提出了 emotion2vec，这是一个通用的语音情感表示模型，通过自我监督在线提取方法在开源未标记的情感数据上进行预训练，结合预训练期间的话语级损失和帧级损失。emotion2vec 在主流的 IEMOCAP 数据集上，仅通过训练线性层的方式在语音情感识别任务中胜过最先进的预训练通用模型和情感专家模型。此外，emotion2vec 在 10 种不同语言的语音情感识别数据集中表现出一致的改进。emotion2vec 在其他情感任务上也展示了出色的结果，如歌曲情感识别、对话中的情感预测和情感分析。比较实验、消融实验和可视化全面展示了提出的 emotion2vec 模型的通用性。据我们所知，emotion2vec 是各种与情感相关任务中的第一个通用表示模型，填补了这一领域的空白。

Dec, 2023

使用预训练的深度视觉模型进行情感语音识别

本文提出使用视觉深度神经网络模型进行情感语音识别的新方法，通过使用预先训练的计算机视觉深度模型的迁移学习能力，将声学特征转化为图像进行识别，并在 Berlin EMO-DB 数据集上进行实验，取得了新的最佳效果。

Apr, 2022

自监督语音模型的探索：情感语料库研究

本研究通过定量分析情感语料库探索了一种流行的自我监督模型 ——wav2vec 2.0，主要证明了：1）wav2vec 2.0 似乎会丢弃不太有用于词汇识别的语用信息；2）对于情感识别，只使用中间层的表示与对多个层求平均后的表示效果相当，在某些情况下，只使用最后一层的表示效果最差；3）现有的自我监督模型可能不是利用非词汇特征的下游任务的最佳解决方案，为该领域未来的研究提供新的发现和理论基础。

Oct, 2022

探索 Wav2vec 2.0 微调以提高语音情绪识别

该研究介绍了使用不同的微调策略，将 Wav2Vec 2.0 应用在语音情感识别上，从而进一步提高其性能，最终成功达到了在 IEMOCAP 数据集上的最新状态下的表现，升高 7.4% 的绝对无权重准确率，同时提出了一种上下文化情感表示的微调方法 “P-TAPT”。

Oct, 2021

使用深度学习框架评估语音情感识别的原始波形

通过直接利用六个不同数据集的原始音频文件进行训练，本研究提出了一种模型用于识别情感，没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法，以及集成学习和深度学习技术进行评估，并与现有的方法进行比较。实验证明，使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率，从而成为了新的最先进方法。在说话人无关的音频分类问题中，该模型在 EMO-DB，RAVDESS，TESS 和 SAVEE 数据集上分别取得了 90.34%，90.42%，99.48% 和 85.76% 的准确率。

Jul, 2023

利用自监督预训练的声学和语言特征进行连续语音情感识别

本文研究音频和文本的预训练提取特征方法，使用 wav2vec 和 camemBERT 模型进行连续情感识别任务，同时采用 SEWA 数据集，证明 wav2vec 和 BERT 预训练特征的联合使用在处理连续 SER 任务中表现非常合适。通过实验证明，新方法的 CCC 值达到 0.825，而传统的 MFCC 和 word2vec 仅为 0.592。

Nov, 2020

使用 Wav2Vec 2.0 识别器进行深度 LSTM 口语检测

本文利用基于字符的 Wav2Vec2.0 模型进行了大规模口语文档中的术语检测任务，实验结果表明，使用基于深度 LSTM 网络的共享发音嵌入空间的 bootstrapping 方法将 DNN-HMM 混合 ASR 的传统发音词汇的知识转化到基于图形的 Wav2Vec 中，能够显著优于 DNN-HMM 混合 ASR 和音素识别器的组合系统。

Oct, 2022

利用辅助任务在 Wav2vec 2.0 和 BERT 的多模态融合中进行多模态情感识别

这篇研究通过在两种模态数据上使用预训练模型进行微调，使用 K 层多头注意机制进行下游融合，设计两种辅助任务以提高情感识别的表现，相比其他最先进的模型在 IEMOCAP 数据集上实现了更好的性能。

Feb, 2023