Vesper:一种紧凑高效的预训练语音情感识别模型
这项工作对来自八个语音预训练模型(wav2vec 2.0,data2vec,wavLM,UniSpeech-SAT,wav2clip,YAMNet,x-vector,ECAPA)的嵌入进行了比较分析。对四个语音情感数据集进行了广泛的实证分析,结果表明,最佳表现是由从训练说话者识别的 PTMs 获得的嵌入训练的算法实现的,这表明从演讲者识别 PTMs 提取嵌入的最佳性能很可能是由于模型在演讲者识别训练期间获取了有关许多语音特征(例如语调,口音,音高等)的信息。
Apr, 2023
通过研究不同的预训练模型、情感文本合成和数据增强方法,本文提出了一种提高语音情感识别效果的方法,实验结果表明该方法在 IEMOCAP 数据集上具有较高的效果。
Sep, 2023
对几种预训练模型,fine-tuned 在情感词汇维度上,作者探究了模型大小、预训练数据、泛化能力、鲁棒性、公平性和效率等方面。结果发现,transformer-based architectures 在 SER 领域表现优越,特别是在情感预测方面。
Mar, 2022
本文提出使用视觉深度神经网络模型进行情感语音识别的新方法,通过使用预先训练的计算机视觉深度模型的迁移学习能力,将声学特征转化为图像进行识别,并在 Berlin EMO-DB 数据集上进行实验,取得了新的最佳效果。
Apr, 2022
最近,人们对语音自我监督模型(SSL)在下游任务中的使用越来越关注。在大规模预训练模型通常优于从头开始训练的较小模型的情况下,人们对最佳微调策略的问题仍然很普遍。本文中,我们探讨了 WavLM Large 模型在 MSP Podcast Corpus 的语音情感识别任务中的微调策略。具体而言,我们进行了一系列实验,重点研究了来自话语中的性别和语义信息的使用。然后,我们总结了我们的发现,并描述了我们用于提交 Speech Emotion Recognition Challenge 2024 的最终模型。
May, 2024
使用八种语音表示模型和六种不同语言,该研究首次全面评估了基于 Transformer 的语音表示模型在跨多种语言的语音情感识别中的性能,并通过探索性实验揭示了这些模型的内部表征。实验结果表明,相较于使用所有层的语音模型特征的系统,仅使用语音模型最优层的特征平均降低了 7 个数据集上的错误率 32%。此外,还在德语和波斯语的语音情感识别方面取得了最新的成果,探测结果表明中间层的语音模型对于捕捉最重要的情感信息至关重要。
Aug, 2023
本文提出一种基于迁移学习的语音情感识别方法,将从预训练的 wav2vec 2.0 模型中提取的特征使用简单的神经网络模型进行建模,并使用可训练的权重从多层模型中组合输出,在 IEMOCAP 和 RAVDESS 两个情感数据库上的评价表明,在情感识别性能上优于现有文献中的结果。
Apr, 2021
该研究介绍了使用不同的微调策略,将 Wav2Vec 2.0 应用在语音情感识别上,从而进一步提高其性能,最终成功达到了在 IEMOCAP 数据集上的最新状态下的表现,升高 7.4% 的绝对无权重准确率,同时提出了一种上下文化情感表示的微调方法 “P-TAPT”。
Oct, 2021
本研究通过定量分析情感语料库探索了一种流行的自我监督模型 ——wav2vec 2.0,主要证明了:1)wav2vec 2.0 似乎会丢弃不太有用于词汇识别的语用信息;2)对于情感识别,只使用中间层的表示与对多个层求平均后的表示效果相当,在某些情况下,只使用最后一层的表示效果最差;3)现有的自我监督模型可能不是利用非词汇特征的下游任务的最佳解决方案,为该领域未来的研究提供新的发现和理论基础。
Oct, 2022
此研究旨在通过使用预先训练的模型来提高语音模型的泛化能力,将说话者自适应视为少样本学习问题,并将 Wav2Vec2.0 在每个多类情感语音识别语料库的四个排列上进行预先微调,并通过 33,600 个 few-shot 微调试验在情感语音数据集上评估模型。
Feb, 2023