情感导向的自动语音识别预训练，增强语音情感识别

Jan, 2022

情感导向的自动语音识别预训练，增强语音情感识别

Sentiment-Aware Automatic Speech Recognition pre-training for enhanced Speech Emotion Recognition

Ayoub Ghriss, Bo Yang, Viktor Rozgic, Elizabeth Shriberg, Chao Wang

TL;DR提出了一种新颖的多任务预训练方法，用于语音情感识别，在同时进行自动语音识别和情感分类任务的情况下对 SER 模型进行预训练，生成目标情感分类的方法，通过公开数据训练的文本情感模型，将声学 ASR 模型更加 “情感感知”，最终在情感注释语音数据上进行了微调，达到了 MSP-Podcast 数据集中价值预测最佳的一致性相关系数（CCC）0.41。

Abstract

We propose a novel multi-task pre-training method for Speech Emotion Recognition (SER). We pre-train SER model simultaneously on Automatic Speech Recognition (ASR) and sentiment classification tasks to make the a

multi-task pre-training speech emotion recognition automatic speech recognition sentiment classification emotion annotated speech data

发现论文，激发创造

ASR 和情感语音：语音和情感识别相互影响的单词级调查

研究利用自动语音识别系统分析情感语音，以及在转录情感语音时出现的错误，探讨自动语音识别对情感语音的适应性，进而促进情感语音的实际应用。

May, 2023

关于共同学习语音情感识别和自动语音识别的有效性和噪声稳健性

本文研究了一种联合的 ASR-SER 多任务学习方法，发现在低资源环境下，采用这种方式可通过对背景噪音的处理从而提高 ASR 词错误率和 SER 分类准确性，结果表明使得该方法产生比独立 ASR 和 SER 方法更具噪音抗干扰性的模型。

May, 2023

基于 ASR 的情感识别特征：迁移学习方法

本文研究了使用神经自动语音识别（ASR）作为情感识别的特征提取器，在预测色调和唤起情绪维度方面，这些特征优于 eGeMAPS 特征集。我们还研究了 ASR 的第一层和最后一层与 valence/arousal 之间的关系。

May, 2018

心态的转变：通过语音转文本模态转换来改善语音情感识别

通过实施自动语音识别（ASR）系统和文本分类器相结合的 Modality-Conversion 方法以及假设具有完美 ASR 输出并研究其在 SER 上的影响的 Modality-Conversion++ 方法，本研究证明了模态转换在增强 MELD 数据集上的情感识别绩效方面的潜力，并超越了现有的基于语音的方法。

Jul, 2023

语音与文本情感识别器

情感计算是一门研究领域，专注于开发能够理解、解释和响应人类情感的系统和技术。本研究主要针对公开可用的情感标签数据集稀缺和不平衡的问题，通过合并这些数据集以及采用各种语音数据增强技术构建了一个均衡的语料库，并在语音情感识别方面尝试了不同的架构。最佳系统是一个多模态的语音和基于文本的模型，相对于基准算法的性能为 157.57（不加权准确度 + 加权准确度），而基准算法的性能为 119.66。

Dec, 2023

多任务半监督对抗自编码器用于语音情感识别

本文提出一种基于多任务学习的框架，通过利用大量的性别分类数据和说话人识别数据，结合采用对抗自编码器（AAE）进行半监督学习的方法，提高语音情感识别的性能，实现更高水平的情感识别表现。

Jul, 2019

多门机制与神经架构搜索的多语言语音情感识别

本文针对低资源语言，提出了一种语言特定的多预训练语音模型情感信息提取方法，设计了一种多领域模型，采用多门机制，并通过神经网络结构搜索模块为每种语言寻找特定的神经网络结构，并引入对比辅助损失来构建更可分离的音频数据表示。实验表明，该模型为德语和法语提高了 3％和 14.3％的准确率。

Oct, 2022

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

基于 Co-Attention 的多层声学信息的语音情感识别

本文提出了一种使用新设计的共同关注机制和多层声学信息的端到端语音情感识别系统。这个系统将 MFCC、谱图和嵌入了高水平声学信息的 CNN、BiLSTM 和 wav2vec2 等多层声学信息提取出来，并使用共同关注机制融合提取出来的多模态输入。在 IEMOCAP 数据集上进行的实验表明，我们的模型具有与两种不同的跨验证策略相竞争的性能。

Mar, 2022

利用自监督预训练的声学和语言特征进行连续语音情感识别

本文研究音频和文本的预训练提取特征方法，使用 wav2vec 和 camemBERT 模型进行连续情感识别任务，同时采用 SEWA 数据集，证明 wav2vec 和 BERT 预训练特征的联合使用在处理连续 SER 任务中表现非常合适。通过实验证明，新方法的 CCC 值达到 0.825，而传统的 MFCC 和 word2vec 仅为 0.592。

Nov, 2020