关于自动语音识别表示在现实世界噪音语音情感识别中的有效性

Nov, 2023

关于自动语音识别表示在现实世界噪音语音情感识别中的有效性

On the Effectiveness of ASR Representations in Real-world Noisy Speech Emotion Recognition

Xiaohan Shi, Jiajun He, Xingfeng Li, Tomoki Toda

TL;DR本文提出了一种高效的噪声语音情感识别（NSER）方法，通过采用自动语音识别（ASR）模型作为噪声鲁棒特征提取器来消除噪声语音中的非语音信息，以解决传统 NSER 方法在真实环境中对非平稳噪声的复杂性和不确定性的限制。实验证明，该方法在 NSER 性能上优于传统的噪声减少方法，胜过自监督学习方法，并且即使在使用 ASR 转录或噪声语音的基准转录的文本方法中也表现优异。

Abstract

This paper proposes an efficient attempt to noisy speech emotion recognition (nser). Conventional nser approaches have proven effective in

noisy speech emotion recognition nser automatic speech recognition asr noise-robust feature extractor

发现论文，激发创造

噪声鲁棒的语音情感识别与信噪比自适应语音增强

本研究提出了一种噪声鲁棒的语音情感识别系统，通过语音增强技术有效降低输入信号中的噪声，并引入信噪比级别检测结构和波形重建策略，以减少对无或较少背景噪声的语音信号的负面影响。实验结果表明，该系统能够有效提高语音情感识别系统的噪声鲁棒性，包括防止系统在仅由背景噪声组成的信号上进行情感识别。此外，所提出的信噪比级别检测结构可单独用于数据选择等任务。

Sep, 2023

关于共同学习语音情感识别和自动语音识别的有效性和噪声稳健性

本文研究了一种联合的 ASR-SER 多任务学习方法，发现在低资源环境下，采用这种方式可通过对背景噪音的处理从而提高 ASR 词错误率和 SER 分类准确性，结果表明使得该方法产生比独立 ASR 和 SER 方法更具噪音抗干扰性的模型。

May, 2023

基于 ASR 的情感识别特征：迁移学习方法

本文研究了使用神经自动语音识别（ASR）作为情感识别的特征提取器，在预测色调和唤起情绪维度方面，这些特征优于 eGeMAPS 特征集。我们还研究了 ASR 的第一层和最后一层与 valence/arousal 之间的关系。

May, 2018

ASR 和情感语音：语音和情感识别相互影响的单词级调查

研究利用自动语音识别系统分析情感语音，以及在转录情感语音时出现的错误，探讨自动语音识别对情感语音的适应性，进而促进情感语音的实际应用。

May, 2023

噪声语音识别的不变表示

本研究旨在通过使用生成对抗网络和领域自适应思想来鼓励神经网络声学模型学习不变特征表示，以实现自动语音识别系统对声学变异的鲁棒性提高。所提出的方法具有普适性，尤其适用于仅针对少量噪声类别进行训练的情况。

Nov, 2016

无监督表示在语音情感识别中改善有监督学习

该研究提出了一种创新的方法，通过将自我监督特征提取与监督分类相结合，从较小的音频片段中识别情感，提高了人机交互的情感理解能力。

Sep, 2023

情感导向的自动语音识别预训练，增强语音情感识别

提出了一种新颖的多任务预训练方法，用于语音情感识别，在同时进行自动语音识别和情感分类任务的情况下对 SER 模型进行预训练，生成目标情感分类的方法，通过公开数据训练的文本情感模型，将声学 ASR 模型更加 “情感感知”，最终在情感注释语音数据上进行了微调，达到了 MSP-Podcast 数据集中价值预测最佳的一致性相关系数（CCC）0.41。

Jan, 2022

基于波斯语 ASR 的 SER：修改 Sharif 情感语音数据库并研究波斯文本语料库

本文通过使用自动语音识别系统，研究了来自波斯语文本语料库的 Farsi 语言模型对 Sharif 情感语音数据库（ShEMO）中不一致性的修复作用，并介绍了一种基于波斯语 / Farsi 语音识别的 SER 系统，该系统使用 ASR 输出的语言特征和基于深度学习的模型。

Nov, 2022

使用不平衡的语音数据学习情感表示，用于语音情感识别和情感文本转语音

本研究提出情感抽取器解决了在语音情感识别和情感语音合成等任务中因数据集不平衡带来的问题，并采用数据增强方法训练模型以提取出通用有效的语音情感表征，为情感语音合成任务提供更具表现力的语音。

Jun, 2023

基于神经结构学习的设备端语音情感识别知识迁移

提出了一种基于神经结构化学习的轻量化模型训练框架，能够在边缘设备上有效地实现语音情感识别，提高模型性能，并降低模型大小。

Oct, 2022