融合声学和基于文本特征的情感识别的方法

Mar, 2024

融合声学和基于文本特征的情感识别的方法

Fusion approaches for emotion recognition from speech using acoustic and text-based features

Leonardo Pepino, Pablo Riera, Luciana Ferrer, Agustin Gravano

TL;DR使用声学和文本特征，研究通过不同方法对语言情感进行分类的研究。使用 BERT 获取情感转录中所包含信息的上下文化词嵌入，相比使用 Glove 嵌入，结果表明表现更好。我们还提出并比较不同的音频和文本模式结合策略，并在 IEMOCAP 和 MSP-PODCAST 数据集上进行评估。我们发现，在这两个数据集上，融合声学和文本系统是有益的，尽管在评估的融合方法中只观察到微小的差异。最后，对于 IEMOCAP 数据集，我们展示了用于定义交叉验证折叠的标准方法对结果的巨大影响。特别是，为该数据集创建折叠的标准方法导致对于文本系统的性能高度乐观的估计，这表明一些先前的作品可能夸大了结合转录的优势。

Abstract

In this paper, we study different approaches for classifying emotions from speech using acoustic and text-based features. We propose to obtain contextualized word embeddings with BERT to represent the information

emotion classification acoustic features text-based features word embeddings fusion approaches

发现论文，激发创造

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

语音情感识别的实证研究与改进

本文提出了一种通过视角损失来改进的多模态语音情感识别模型，通过融合音频和文本信息来提高多模态任务的性能表现，在 IEMOCAP 数据集上获得了最新的最佳表现。

Apr, 2023

基于语音的多模态情感识别中的学习对齐

本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法，以提高音频 - 文本多模态情感识别的准确性，并在 IEMOCAP 数据集上取得了最先进的性能。

Sep, 2019

利用语音和文本的多模态语音情感识别

本文提出了一种深度双重循环编码器模型，利用语音和文本数据进行机器情感识别，该模型表现更优，实验结果显示，当将该模型应用于 IEMOCAP 数据集时，在将数据分配到四个情感类别（愤怒，高兴，悲伤和中性）方面，准确率在 68.8％至 71.8％之间。

Oct, 2018

基于注意力机制的多模态情感识别融合

本论文提出了一种基于深度学习的方法，结合了文本和音频数据进行情绪分类，使用 SincNet 层提取音频特征，同时使用双向 RNN 和深度卷积神经网络提取文本特征，通过交叉注意力机制融合两种特征，在 IEMOCAP 数据集上取得了比现有方法更好的性能。

Sep, 2020

多模态语音情感识别和歧义解析

本研究采用基于特征工程的方法来解决语音情感识别的问题，并通过提取八个手工特征，将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现，我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。

Apr, 2019

使用预训练转换器进行文本、语音和视频的多模态情绪识别

通过使用多模态感情识别方法和各种融合技术，本研究在 IEMOCAP 多模态数据集上实现了 75.42% 的准确率，主要关注多模态感情识别、自监督学习、迁移学习和 Transformer 模型。

Feb, 2024

基于深度多模态学习的口语情感识别

本文提出了一种新颖的深度多模态框架，基于句子级别的口语语言预测人类情感，通过混合式的深度多模态结构从文本和音频中提取高级特征，再使用三层深度神经网络将所有特征融合起来进行训练，实现整个结构的最优全局微调，结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。

Feb, 2018

从视觉和声音模态获取无文本情感的可扩展多模态情感分类

本文介绍了一种多模态融合模型，该模型专门使用高级视频和音频特征来分析口语句子的情感。该模型在 CMUMOSEI 数据集上进行了训练和测试，并获得了验证集上的 F1 得分 0.8049 和挑战测试集上的 F1 得分 0.6325。

Jul, 2018

基于 Wav2vec 2.0 和 BERT 的多模态情感识别的多级融合

该研究探讨了多模态情感识别问题，提出了使用迁移学习的方法，结合各种预训练模型和多级融合方法，以及多粒度特征提取的框架，从而在 IEMOCAP 数据集上取得了比最佳基线法高 1.3％的性能表现。

Jul, 2022