资源约束下基于数据蒸馏的语音情感识别

Jun, 2024

资源约束下基于数据蒸馏的语音情感识别

Speech Emotion Recognition under Resource Constraints with Data Distillation

Yi Chang, Zhao Ren, Zhonghao Zhao, Thanh Tam Nguyen, Kun Qian...

TL;DR通过合成、缩小和提炼数据集的方法，我们提出了一种数据蒸馏框架，以促进在物联网应用中高效开发情感语音识别模型。我们的实验表明，可以有效地利用提炼后的数据集来训练情感语音识别模型，并且性能与使用原始完整的情感语音数据集开发的模型相当。

Abstract

speech emotion recognition (SER) plays a crucial role in human-computer interaction. The emergence of edge devices in the internet of things

speech emotion recognition edge devices internet of things data distillation framework ser models

发现论文，激发创造

通过提炼韵律和语言情感表达的语音情感识别

EmoDistill 是一个新颖的语音情感识别（SER）框架，利用跨模态知识蒸馏在训练期间从语音中学习强大的语言和韵律情感表示。在推断过程中，我们的方法仅使用一系列语音信号执行单模态 SER，从而减少计算开销并避免运行时转录和韵律特征提取错误。在 IEMOCAP 基准上的实验证明，我们的方法以相当大的优势胜过其他单模态和多模态技术，并实现了 77.49％的非加权准确率和 78.91％的加权准确率。详细的消融研究展示了我们方法的每个组成部分的影响。

Sep, 2023

基于神经结构学习的设备端语音情感识别知识迁移

提出了一种基于神经结构化学习的轻量化模型训练框架，能够在边缘设备上有效地实现语音情感识别，提高模型性能，并降低模型大小。

Oct, 2022

通过半监督联合学习进行隐私保护的语音情感识别

本文提出了一种隐私保护、数据高效的基于联邦学习的语音情感识别方法，该方法结合有标记和无标记设备数据通过自我训练学习模型，实验结果表明该方法能够在低可用数据标记和高度非独立同分布的情况下学习出泛化性较强的模型，平均只需 10% 的标记数据就能达到 8.67% 的识别率提升。

Feb, 2022

如何在数据集间推广 SER 模型？一个全面的基准测试

通过整合多个数据集、解决数据分布不均衡以及评估协议，本研究旨在推进语音情感识别技术的发展，以实现人机交互的增强。

Jun, 2024

使用深度神经网络进行波斯语音情感识别

本研究利用各种深度学习和机器学习技术，通过对一个 Farsi/Persian 数据集的分析，研究了 Farsi 语言中的情感识别技术，取得了 65.20% 的 UA 和 78.29% 的 WA。

Apr, 2022

使用不平衡的语音数据学习情感表示，用于语音情感识别和情感文本转语音

本研究提出情感抽取器解决了在语音情感识别和情感语音合成等任务中因数据集不平衡带来的问题，并采用数据增强方法训练模型以提取出通用有效的语音情感表征，为情感语音合成任务提供更具表现力的语音。

Jun, 2023

使用 CNN 的语音情感识别及其在数字化医疗中的应用案例

使用卷积神经网络（CNN) 对音频录音进行识别和情感标记，通过机器学习方法评估表情识别模型，并关注精确度、召回率和 F1 得分，以提高交流意图的识别能力。

Jun, 2024

多门机制与神经架构搜索的多语言语音情感识别

本文针对低资源语言，提出了一种语言特定的多预训练语音模型情感信息提取方法，设计了一种多领域模型，采用多门机制，并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构，并引入对比辅助损失来构建更可分离的音频数据表示。实验表明，该模型为德语和法语提高了 3％和 14.3％的准确率。

Oct, 2022

INTERSPEECH 2009 情感挑戰重探：在語音情感識別領域 15 年的進展基準

重新回顾评估深度学习模型在语音情感识别研究中的最新进展，表明尽管取得了一些进步，FAU-AIBO 仍然是一个具有挑战性的基准，而新的方法并不一致地优于旧的方法，显示解决语音情感识别问题的进展不一定是单调的。

Jun, 2024

解析情绪：针对语音情感识别的全面多语言研究

使用八种语音表示模型和六种不同语言，该研究首次全面评估了基于 Transformer 的语音表示模型在跨多种语言的语音情感识别中的性能，并通过探索性实验揭示了这些模型的内部表征。实验结果表明，相较于使用所有层的语音模型特征的系统，仅使用语音模型最优层的特征平均降低了 7 个数据集上的错误率 32％。此外，还在德语和波斯语的语音情感识别方面取得了最新的成果，探测结果表明中间层的语音模型对于捕捉最重要的情感信息至关重要。

Aug, 2023