半监督跨语言语音情感识别

Jul, 2022

Semi-supervised cross-lingual speech emotion recognition

Mirko Agarla, Simone Bianco, Luigi Celona, Paolo Napoletano, Alexey Petrovsky...

TL;DR本文提出一种基于半监督学习的交叉语言情感识别方法，使用卷积神经网络 (CNN) 和伪标签策略进行训练，在五种不同语言的数据上表现出鲁棒性。

Abstract

speech emotion recognition (SER) on a single language has achieved remarkable results through deep learning approaches over the last decade. However, →

speech emotion recognition deep learning cross-lingual semi-supervised learning convolutional neural network

发现论文，激发创造

探索基于自监督多视角对比学习在有限标注下的语音情感识别

提出了一种多视角的自监督学习预训练技术，用于改善情感识别在数据标注有限的情况下的性能，实验证明该框架能够提高业绩。

Jun, 2024

多门机制与神经架构搜索的多语言语音情感识别

本文针对低资源语言，提出了一种语言特定的多预训练语音模型情感信息提取方法，设计了一种多领域模型，采用多门机制，并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构，并引入对比辅助损失来构建更可分离的音频数据表示。实验表明，该模型为德语和法语提高了 3％和 14.3％的准确率。

Oct, 2022

LanSER: 语言模型支持下的语音情感识别

利用先前训练的大型语言模型，LanSER 通过弱监督学习方法通过推断弱情绪标签实现对未标记数据的利用，并在限制到特定分类方法的情况下使用文本蕴涵方法从自动语音识别中提取的语音转录本选择具有最高蕴涵分数的情绪标签，实验证明，使用这种弱监督方法的大型数据集的预训练模型在标准语音情感识别数据集上的调整后表现优于其他基线模型，并显示了改进的标签效率，尽管这些模型仅以文本为基础进行了预训练，但我们证明了得到的表示形式似乎对语音的韵律内容进行了建模。

Sep, 2023

使用深度神经网络进行波斯语音情感识别

本研究利用各种深度学习和机器学习技术，通过对一个 Farsi/Persian 数据集的分析，研究了 Farsi 语言中的情感识别技术，取得了 65.20% 的 UA 和 78.29% 的 WA。

Apr, 2022

跨语料库多语言语音情感识别：阿姆哈拉语与其他语言

跨语言和多语言训练可以是资源稀缺的语言中训练情感识别分类器的有效策略。

Jul, 2023

无监督表示在语音情感识别中改善有监督学习

该研究提出了一种创新的方法，通过将自我监督特征提取与监督分类相结合，从较小的音频片段中识别情感，提高了人机交互的情感理解能力。

Sep, 2023

面向可推广 SER 的软标注和数据增强：建模大规模多语种语音中的情绪时序变化

通过合并多个语料库，提出了一种软标签系统来识别口语交流中的情感，并使用时间动力学强调情感的动态变化。通过在跨语言的四个多语种数据集上进行验证，展示了引人注目的零 - shot 泛化性能。

Nov, 2023

通过半监督联合学习进行隐私保护的语音情感识别

本文提出了一种隐私保护、数据高效的基于联邦学习的语音情感识别方法，该方法结合有标记和无标记设备数据通过自我训练学习模型，实验结果表明该方法能够在低可用数据标记和高度非独立同分布的情况下学习出泛化性较强的模型，平均只需 10% 的标记数据就能达到 8.67% 的识别率提升。

Feb, 2022

利用跨领域语音情感识别协助，使用无标记情感数据集进行情感可控语音合成

本文提出了一种新颖的情感文本转语音合成方法，通过跨域语音情感识别模型和情感文本转语音模型进行联合训练，从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音，并且几乎不影响其语音质量。

Oct, 2020

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021