DSNet: 融合中性校准的分解孪生网络用于语音情感识别

Dec, 2023

DSNet: 融合中性校准的分解孪生网络用于语音情感识别

DSNet: Disentangled Siamese Network with Neutral Calibration for Speech Emotion Recognition

Chengxin Chen, Pengyuan Zhang

TL;DR通过引入 DSNet，一个具有中立校准的解缠结孪生网络，以满足更强大和可解释的语音情感识别模型的需求，并在两个流行的基准数据集上的实验结果证明其优越性。

Abstract

One persistent challenge in deep learning based speech emotion recognition (SER) is the unconscious encoding of emotion-irrelevant factors (e.g., speaker or phonetic variability), which limits the generalization

deep learning speech emotion recognition dsnet disentangled siamese network neutral calibration

发现论文，激发创造

基于修改距离损失的孪生神经网络在语音情感识别中的迁移学习

使用 Siamese 网络进行跨语音情感识别的迁移学习，通过 fine-tuning 和优化 distance loss 可以提高识别准确性。

Jun, 2020

自监督式语音情感识别的说话人归一化

我们提出了一种基于梯度对抗学习框架的方法，该方法可以从特征表示中规范化发言者特征，从而学习语音情感识别任务，在演讲者无关和有关的设置下，我们在具有挑战性的 IEMOCAP 数据集上获得了新的最优结果。

Feb, 2022

多门机制与神经架构搜索的多语言语音情感识别

本文针对低资源语言，提出了一种语言特定的多预训练语音模型情感信息提取方法，设计了一种多领域模型，采用多门机制，并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构，并引入对比辅助损失来构建更可分离的音频数据表示。实验表明，该模型为德语和法语提高了 3％和 14.3％的准确率。

Oct, 2022

利用孪生网络和对比损失进行语音情绪识别

本文介绍一种利用对比损失函数来鼓励可学习特征的类内紧凑性和类间可分性的方法用于语音情感识别，结果表明该方法在 IEMOCAP 数据库上表现出比基准系统更好的性能。

Oct, 2019

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

语音情感识别的神经架构搜索

本文提出利用神经网络架构搜索技术以及统一路径随机失活策略来自动配置情感识别模型，实验证明在 IEMOCAP 上两个不同的神经结构都可以提高 SER 性能 (54.89% 到 56.28%) 并且可以保持模型参数大小，而且提出的随机失活策略也表现出更优的性能。

Mar, 2022

资源约束下基于数据蒸馏的语音情感识别

通过合成、缩小和提炼数据集的方法，我们提出了一种数据蒸馏框架，以促进在物联网应用中高效开发情感语音识别模型。我们的实验表明，可以有效地利用提炼后的数据集来训练情感语音识别模型，并且性能与使用原始完整的情感语音数据集开发的模型相当。

Jun, 2024

EmoDiarize：使用卷积神经网络从语音信号中进行说话人分离和情绪识别

在先进的人工智能和人机交互时代，识别口语中的情绪至关重要。本研究探讨了深度学习技术在语音情绪识别中的应用，提供了一个综合的解决方案，解决了说话人分离和情绪识别中的挑战。该研究引入了一个框架，将现有的说话人分离流程与基于卷积神经网络（CNN）构建的情绪识别模型相结合，以实现更高的准确性。所提出的模型经过五个语音情绪数据集的训练，包括 RAVDESS、CREMA-D、SAVEE、TESS 和电影片段。从每个样本中提取的特征包括梅尔频率倒谱系数（MFCC）、过零率（ZCR）、均方根（RMS）以及 pitch、noise、stretch 和 shift 等各种数据增强算法。这种特征提取方法旨在提高预测准确性同时降低计算复杂性。所提出的模型能够以 63% 的不加权准确率准确识别语音信号中的情绪状态，展示了出色的效率。

Oct, 2023

使用深度神经网络进行波斯语音情感识别

本研究利用各种深度学习和机器学习技术，通过对一个 Farsi/Persian 数据集的分析，研究了 Farsi 语言中的情感识别技术，取得了 65.20% 的 UA 和 78.29% 的 WA。

Apr, 2022

使用自监督特征进行语音情感识别

本文介绍了一种基于自上而下加自下而上架构范式的端到端情感识别系统，构建了基于自我监督特征的情感识别实验，并研究了自我监督特征模型的微调、特征的聚合和后端分类网络之间的相互作用等领域。该单模只有语音的系统不仅取得了 SOTA 结果，而且也揭示了强大且经过精细调整的自我监督声学特征的可能性，使其达到类似于同时使用语音和文本模态的 SOTA 多模态系统所达到的结果。

Feb, 2022