探索 Wav2vec 2.0 微调以提高语音情绪识别
提出了一种基于主动学习和微调的语音情感识别框架,使用任务适应性预训练和主动学习方法来提高性能和效率,并通过仅使用 20% 的样本来改善 8.45% 的准确性和减少 79% 的时间消耗。
Sep, 2023
本文提出一种基于迁移学习的语音情感识别方法,将从预训练的 wav2vec 2.0 模型中提取的特征使用简单的神经网络模型进行建模,并使用可训练的权重从多层模型中组合输出,在 IEMOCAP 和 RAVDESS 两个情感数据库上的评价表明,在情感识别性能上优于现有文献中的结果。
Apr, 2021
通过利用主动学习 (AL) 和任务适应预训练 (TAPT) 方法,我们提出了一种名为 extsc {After} 的情感语音识别 (SER) 框架,用于增强性能和效率,实验证明我们的方法在仅使用 20%的样本时,准确率提高了 8.45%,时间消耗减少了 79%。
May, 2024
经验证,通过参数高效微调(PEFT)方法,结合精简可训练参数数量,能够有效提升语音情感识别(SER)模型的性能,并通过两阶段适应策略使模型具备更好捕捉自然情感表达的能力。
Feb, 2024
通过研究不同的预训练模型、情感文本合成和数据增强方法,本文提出了一种提高语音情感识别效果的方法,实验结果表明该方法在 IEMOCAP 数据集上具有较高的效果。
Sep, 2023
此研究旨在通过使用预先训练的模型来提高语音模型的泛化能力,将说话者自适应视为少样本学习问题,并将 Wav2Vec2.0 在每个多类情感语音识别语料库的四个排列上进行预先微调,并通过 33,600 个 few-shot 微调试验在情感语音数据集上评估模型。
Feb, 2023
这项工作对来自八个语音预训练模型(wav2vec 2.0,data2vec,wavLM,UniSpeech-SAT,wav2clip,YAMNet,x-vector,ECAPA)的嵌入进行了比较分析。对四个语音情感数据集进行了广泛的实证分析,结果表明,最佳表现是由从训练说话者识别的 PTMs 获得的嵌入训练的算法实现的,这表明从演讲者识别 PTMs 提取嵌入的最佳性能很可能是由于模型在演讲者识别训练期间获取了有关许多语音特征(例如语调,口音,音高等)的信息。
Apr, 2023
该研究探讨了多模态情感识别问题,提出了使用迁移学习的方法,结合各种预训练模型和多级融合方法,以及多粒度特征提取的框架,从而在 IEMOCAP 数据集上取得了比最佳基线法高 1.3%的性能表现。
Jul, 2022
本文研究音频和文本的预训练提取特征方法,使用 wav2vec 和 camemBERT 模型进行连续情感识别任务,同时采用 SEWA 数据集,证明 wav2vec 和 BERT 预训练特征的联合使用在处理连续 SER 任务中表现非常合适。通过实验证明,新方法的 CCC 值达到 0.825,而传统的 MFCC 和 word2vec 仅为 0.592。
Nov, 2020
对几种预训练模型,fine-tuned 在情感词汇维度上,作者探究了模型大小、预训练数据、泛化能力、鲁棒性、公平性和效率等方面。结果发现,transformer-based architectures 在 SER 领域表现优越,特别是在情感预测方面。
Mar, 2022