使用深度神经网络进行波斯语音情感识别
本文通过使用自动语音识别系统,研究了来自波斯语文本语料库的 Farsi 语言模型对 Sharif 情感语音数据库(ShEMO)中不一致性的修复作用,并介绍了一种基于波斯语 / Farsi 语音识别的 SER 系统,该系统使用 ASR 输出的语言特征和基于深度学习的模型。
Nov, 2022
本文针对低资源语言,提出了一种语言特定的多预训练语音模型情感信息提取方法,设计了一种多领域模型,采用多门机制,并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构,并引入对比辅助损失来构建更可分离的音频数据表示。实验表明,该模型为德语和法语提高了 3%和 14.3%的准确率。
Oct, 2022
使用卷积神经网络(CNN) 对音频录音进行识别和情感标记,通过机器学习方法评估表情识别模型,并关注精确度、召回率和 F1 得分,以提高交流意图的识别能力。
Jun, 2024
本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法,该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。
Apr, 2021
使用八种语音表示模型和六种不同语言,该研究首次全面评估了基于 Transformer 的语音表示模型在跨多种语言的语音情感识别中的性能,并通过探索性实验揭示了这些模型的内部表征。实验结果表明,相较于使用所有层的语音模型特征的系统,仅使用语音模型最优层的特征平均降低了 7 个数据集上的错误率 32%。此外,还在德语和波斯语的语音情感识别方面取得了最新的成果,探测结果表明中间层的语音模型对于捕捉最重要的情感信息至关重要。
Aug, 2023
情感计算是一门研究领域,专注于开发能够理解、解释和响应人类情感的系统和技术。本研究主要针对公开可用的情感标签数据集稀缺和不平衡的问题,通过合并这些数据集以及采用各种语音数据增强技术构建了一个均衡的语料库,并在语音情感识别方面尝试了不同的架构。最佳系统是一个多模态的语音和基于文本的模型,相对于基准算法的性能为 157.57(不加权准确度 + 加权准确度),而基准算法的性能为 119.66。
Dec, 2023
本研究提出了一种迭代特征增强方法来增强语音情感识别(SER)中机器学习模型的性能,并通过模型解释性实现了对情感决策的重要特征的识别和删除,对 SER 数据集的实验证明了该方法的有效性。
Jun, 2024
本文提出利用神经网络架构搜索技术以及统一路径随机失活策略来自动配置情感识别模型,实验证明在 IEMOCAP 上两个不同的神经结构都可以提高 SER 性能 (54.89% 到 56.28%) 并且可以保持模型参数大小,而且提出的随机失活策略也表现出更优的性能。
Mar, 2022