基于讲话者注意力的语音情感识别
本文提出了一种使用新设计的共同关注机制和多层声学信息的端到端语音情感识别系统。这个系统将 MFCC、谱图和嵌入了高水平声学信息的 CNN、BiLSTM 和 wav2vec2 等多层声学信息提取出来,并使用共同关注机制融合提取出来的多模态输入。在 IEMOCAP 数据集上进行的实验表明,我们的模型具有与两种不同的跨验证策略相竞争的性能。
Mar, 2022
我们提出了一种基于梯度对抗学习框架的方法,该方法可以从特征表示中规范化发言者特征,从而学习语音情感识别任务,在演讲者无关和有关的设置下,我们在具有挑战性的 IEMOCAP 数据集上获得了新的最优结果。
Feb, 2022
使用卷积神经网络(CNN) 对音频录音进行识别和情感标记,通过机器学习方法评估表情识别模型,并关注精确度、召回率和 F1 得分,以提高交流意图的识别能力。
Jun, 2024
本研究利用各种深度学习和机器学习技术,通过对一个 Farsi/Persian 数据集的分析,研究了 Farsi 语言中的情感识别技术,取得了 65.20% 的 UA 和 78.29% 的 WA。
Apr, 2022
在先进的人工智能和人机交互时代,识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用,提供了一个综合的解决方案,解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架,将现有的说话人分离流程与基于卷积神经网络(CNN)构建的情绪识别模型相结合,以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练,包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数(MFCC)、过零率(ZCR)、均方根(RMS)以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态,展示了出色的效率。
Oct, 2023
本文探讨了会话情感识别 (CER) 的问题,考虑到说话人的信息对于识别情感的影响,提出利用说话人鉴别任务 (SI) 辅助提升对话中话语的表示。实验结果表明,该方法能够有效提高 CER 的性能,达到了两个基准数据集的最优结果。
Mar, 2020
本文针对低资源语言,提出了一种语言特定的多预训练语音模型情感信息提取方法,设计了一种多领域模型,采用多门机制,并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构,并引入对比辅助损失来构建更可分离的音频数据表示。实验表明,该模型为德语和法语提高了 3%和 14.3%的准确率。
Oct, 2022
提出了一种新颖的多任务预训练方法,用于语音情感识别,在同时进行自动语音识别和情感分类任务的情况下对 SER 模型进行预训练,生成目标情感分类的方法,通过公开数据训练的文本情感模型,将声学 ASR 模型更加 “情感感知”,最终在情感注释语音数据上进行了微调,达到了 MSP-Podcast 数据集中价值预测最佳的一致性相关系数(CCC)0.41。
Jan, 2022
这项研究评估了深度学习模型在语音情感识别中面临的对抗性攻击问题,发现 CNN-LSTM 模型对对抗示例非常脆弱,且攻击对不同语言和性别的影响差异较小。该研究为提高语音情感识别算法的鲁棒性,设计更有效的攻击、探究可能的防御方法以及加深我们对语言和性别差异的理解提供了基线数据。
Apr, 2024