野外情感语音识别中的跨模态转移

Aug, 2018

野外情感语音识别中的跨模态转移

Emotion Recognition in Speech using Cross-Modal Transfer in the Wild

Samuel Albanie, Arsha Nagrani, Andrea Vedaldi, Andrew Zisserman

TL;DR本篇研究提出一种基于面部表情的情感识别的无监督学习方法，通过跨模态蒸馏将面部表情标注传递到语音领域，用于语音情感识别，实现了在未标注音频数据下学习语音情感表示的目标。

Abstract

Obtaining large, human labelled speech datasets to train models for emotion recognition is a notoriously challenging task, hindered by annotation cost and label ambiguity. In this work, we consider the task of learning embeddings for →

speech emotion recognition facial expression cross-modal distillation teacher-student learning

发现论文，激发创造

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

基于语音的多模态情感识别中的学习对齐

本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法，以提高音频 - 文本多模态情感识别的准确性，并在 IEMOCAP 数据集上取得了最先进的性能。

Sep, 2019

利用跨领域语音情感识别协助，使用无标记情感数据集进行情感可控语音合成

本文提出了一种新颖的情感文本转语音合成方法，通过跨域语音情感识别模型和情感文本转语音模型进行联合训练，从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音，并且几乎不影响其语音质量。

Oct, 2020

语音情感识别的可迁移特征学习

本文提出了一种基于卷积神经网络和长短记忆网络的深度学习架构，通过使用可转移的特征从多个源域自适应模型并识别不同情感领域的语音情感，实验结果表明，该方法提供了 4.3％至 18.4％的效果增益。

Dec, 2019

语音情感识别的实证研究与改进

本文提出了一种通过视角损失来改进的多模态语音情感识别模型，通过融合音频和文本信息来提高多模态任务的性能表现，在 IEMOCAP 数据集上获得了最新的最佳表现。

Apr, 2023

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020

多模态语音情感识别和歧义解析

本研究采用基于特征工程的方法来解决语音情感识别的问题，并通过提取八个手工特征，将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现，我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。

Apr, 2019

基于迁移学习的车载德语语音多模态情感识别

本文介绍了一项使用人类语音交互的自动情感识别多通道实验，需同时考虑音频信号、司机面部表情和言语。作者采用现成的工具分析音频和面部表情，使用神经转移学习方法分析言语并利用其他领域的资源，发现该方法可以有效提高模型效果。研究表明尚不具备分析车内语音交互情感检测的现成工具需要进一步的改进。

Sep, 2019

基于深度多模态学习的口语情感识别

本文提出了一种新颖的深度多模态框架，基于句子级别的口语语言预测人类情感，通过混合式的深度多模态结构从文本和音频中提取高级特征，再使用三层深度神经网络将所有特征融合起来进行训练，实现整个结构的最优全局微调，结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。

Feb, 2018

采用聚合语料库和深度多任务学习实现野外情感识别语音

使用多任务学习以及在深度神经网络中使用性别和自然度等辅助任务来改善情感模型的泛化能力，并在理论模拟和实际数据中比较了单任务学习方法，结果表明多任务学习方法显著提高了情感识别性能，尤其是使用性别和自然度都提高了性能。

Aug, 2017