基于 ASR 的情感识别特征：迁移学习方法

ACLMay, 2018

基于 ASR 的情感识别特征：迁移学习方法

ASR-based Features for Emotion Recognition: A Transfer Learning Approach

Noé Tits, Kevin El Haddad, Thierry Dutoit

TL;DR本文研究了使用神经自动语音识别（ASR）作为情感识别的特征提取器，在预测色调和唤起情绪维度方面，这些特征优于 eGeMAPS 特征集。我们还研究了 ASR 的第一层和最后一层与 valence/arousal 之间的关系。

Abstract

During the last decade, the applications of signal processing have drastically improved with deep learning. However areas of affecting computing such as →

signal processing deep learning emotional speech synthesis emotion recognition automatic speech recognition

发现论文，激发创造

ASR 和情感语音：语音和情感识别相互影响的单词级调查

研究利用自动语音识别系统分析情感语音，以及在转录情感语音时出现的错误，探讨自动语音识别对情感语音的适应性，进而促进情感语音的实际应用。

May, 2023

情感导向的自动语音识别预训练，增强语音情感识别

提出了一种新颖的多任务预训练方法，用于语音情感识别，在同时进行自动语音识别和情感分类任务的情况下对 SER 模型进行预训练，生成目标情感分类的方法，通过公开数据训练的文本情感模型，将声学 ASR 模型更加 “情感感知”，最终在情感注释语音数据上进行了微调，达到了 MSP-Podcast 数据集中价值预测最佳的一致性相关系数（CCC）0.41。

Jan, 2022

关于自动语音识别表示在现实世界噪音语音情感识别中的有效性

本文提出了一种高效的噪声语音情感识别（NSER）方法，通过采用自动语音识别（ASR）模型作为噪声鲁棒特征提取器来消除噪声语音中的非语音信息，以解决传统 NSER 方法在真实环境中对非平稳噪声的复杂性和不确定性的限制。实验证明，该方法在 NSER 性能上优于传统的噪声减少方法，胜过自监督学习方法，并且即使在使用 ASR 转录或噪声语音的基准转录的文本方法中也表现优异。

Nov, 2023

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

语音情感识别的可迁移特征学习

本文提出了一种基于卷积神经网络和长短记忆网络的深度学习架构，通过使用可转移的特征从多个源域自适应模型并识别不同情感领域的语音情感，实验结果表明，该方法提供了 4.3％至 18.4％的效果增益。

Dec, 2019

基于语音的情感识别特征选择增强和特征空间可视化

本研究提出使用增强策略来提升语音情感识别的准确性，并使用两个数据集验证其有效性，比基准研究识别率分别提高了 11.5％和 13.8％。

Aug, 2022

多模态语音情感识别和歧义解析

本研究采用基于特征工程的方法来解决语音情感识别的问题，并通过提取八个手工特征，将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现，我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。

Apr, 2019

基于深度学习的情感识别数据增强技术比较研究

本文对情感识别中的流行深度学习方法进行了全面评估，发现语音信号中的长距离依赖对情感识别至关重要，而速率变换是获得最稳健性能提升的最佳数据扩增技术之一。

Nov, 2022

自然语音识别可视化 —— 提高理解的方法？

本文介绍了如何使用图像识别中的归因方法，结合音频数据，帮助可视化深度神经网络自动语音识别模型中输入的哪些特征对输出结果影响最大。通过比较 Layer-wise Relevance Propagation（LRP）、Saliency Maps 和 Shapley Additive Explanations（SHAP）这三种可视化技术，展示了归因方法的优势和应用前景，包括在检测对抗性样本方面。

Feb, 2022

语音与文本情感识别器

情感计算是一门研究领域，专注于开发能够理解、解释和响应人类情感的系统和技术。本研究主要针对公开可用的情感标签数据集稀缺和不平衡的问题，通过合并这些数据集以及采用各种语音数据增强技术构建了一个均衡的语料库，并在语音情感识别方面尝试了不同的架构。最佳系统是一个多模态的语音和基于文本的模型，相对于基准算法的性能为 157.57（不加权准确度 + 加权准确度），而基准算法的性能为 119.66。

Dec, 2023