半监督跨语言语音情感识别
本文针对低资源语言,提出了一种语言特定的多预训练语音模型情感信息提取方法,设计了一种多领域模型,采用多门机制,并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构,并引入对比辅助损失来构建更可分离的音频数据表示。实验表明,该模型为德语和法语提高了 3%和 14.3%的准确率。
Oct, 2022
利用先前训练的大型语言模型,LanSER 通过弱监督学习方法通过推断弱情绪标签实现对未标记数据的利用,并在限制到特定分类方法的情况下使用文本蕴涵方法从自动语音识别中提取的语音转录本选择具有最高蕴涵分数的情绪标签,实验证明,使用这种弱监督方法的大型数据集的预训练模型在标准语音情感识别数据集上的调整后表现优于其他基线模型,并显示了改进的标签效率,尽管这些模型仅以文本为基础进行了预训练,但我们证明了得到的表示形式似乎对语音的韵律内容进行了建模。
Sep, 2023
本研究利用各种深度学习和机器学习技术,通过对一个 Farsi/Persian 数据集的分析,研究了 Farsi 语言中的情感识别技术,取得了 65.20% 的 UA 和 78.29% 的 WA。
Apr, 2022
通过合并多个语料库,提出了一种软标签系统来识别口语交流中的情感,并使用时间动力学强调情感的动态变化。通过在跨语言的四个多语种数据集上进行验证,展示了引人注目的零 - shot 泛化性能。
Nov, 2023
本文提出了一种隐私保护、数据高效的基于联邦学习的语音情感识别方法,该方法结合有标记和无标记设备数据通过自我训练学习模型,实验结果表明该方法能够在低可用数据标记和高度非独立同分布的情况下学习出泛化性较强的模型,平均只需 10% 的标记数据就能达到 8.67% 的识别率提升。
Feb, 2022
本文提出了一种新颖的情感文本转语音合成方法,通过跨域语音情感识别模型和情感文本转语音模型进行联合训练,从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音,并且几乎不影响其语音质量。
Oct, 2020
本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法,该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。
Apr, 2021