基于 ASR 的情感识别特征:迁移学习方法
研究利用自动语音识别系统分析情感语音,以及在转录情感语音时出现的错误,探讨自动语音识别对情感语音的适应性,进而促进情感语音的实际应用。
May, 2023
提出了一种新颖的多任务预训练方法,用于语音情感识别,在同时进行自动语音识别和情感分类任务的情况下对 SER 模型进行预训练,生成目标情感分类的方法,通过公开数据训练的文本情感模型,将声学 ASR 模型更加 “情感感知”,最终在情感注释语音数据上进行了微调,达到了 MSP-Podcast 数据集中价值预测最佳的一致性相关系数(CCC)0.41。
Jan, 2022
本文提出了一种高效的噪声语音情感识别(NSER)方法,通过采用自动语音识别(ASR)模型作为噪声鲁棒特征提取器来消除噪声语音中的非语音信息,以解决传统 NSER 方法在真实环境中对非平稳噪声的复杂性和不确定性的限制。实验证明,该方法在 NSER 性能上优于传统的噪声减少方法,胜过自监督学习方法,并且即使在使用 ASR 转录或噪声语音的基准转录的文本方法中也表现优异。
Nov, 2023
本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法,该方法融合了文字和语音特征,并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。
Sep, 2021
本文提出了一种基于卷积神经网络和长短记忆网络的深度学习架构,通过使用可转移的特征从多个源域自适应模型并识别不同情感领域的语音情感,实验结果表明,该方法提供了 4.3%至 18.4%的效果增益。
Dec, 2019
本研究采用基于特征工程的方法来解决语音情感识别的问题,并通过提取八个手工特征,将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现,我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。
Apr, 2019
本文对情感识别中的流行深度学习方法进行了全面评估,发现语音信号中的长距离依赖对情感识别至关重要,而速率变换是获得最稳健性能提升的最佳数据扩增技术之一。
Nov, 2022
本文介绍了如何使用图像识别中的归因方法,结合音频数据,帮助可视化深度神经网络自动语音识别模型中输入的哪些特征对输出结果影响最大。通过比较 Layer-wise Relevance Propagation(LRP)、Saliency Maps 和 Shapley Additive Explanations(SHAP)这三种可视化技术,展示了归因方法的优势和应用前景,包括在检测对抗性样本方面。
Feb, 2022
情感计算是一门研究领域,专注于开发能够理解、解释和响应人类情感的系统和技术。本研究主要针对公开可用的情感标签数据集稀缺和不平衡的问题,通过合并这些数据集以及采用各种语音数据增强技术构建了一个均衡的语料库,并在语音情感识别方面尝试了不同的架构。最佳系统是一个多模态的语音和基于文本的模型,相对于基准算法的性能为 157.57(不加权准确度 + 加权准确度),而基准算法的性能为 119.66。
Dec, 2023