基于多标签联合解码的层次音视频信息融合在 MER 2023 上的应用

Sep, 2023

基于多标签联合解码的层次音视频信息融合在 MER 2023 上的应用

Hierarchical Audio-Visual Information Fusion with Multi-label Joint Decoding for MER 2023

Haotian Wang, Yuxuan Xi, Hang Chen, Jun Du, Yan Song...

TL;DR我们提出了一个用于识别离散和维度情感的新框架，通过从基础模型中提取的深度特征作为原始视频的鲁棒声学和视觉表示，设计了三种基于注意力引导特征汇集的不同结构用于深度特征融合，并在解码阶段引入了联合解码结构用于情感分类和价值回归。我们还设计了基于不确定性的多任务损失来优化整个过程。最后，通过在后验概率级别上结合三种不同的结构，我们获得了离散和维度情感的最终预测。当在多模态情感识别挑战数据集（MER 2023）上进行测试时，该提出的框架在情感分类和价值回归方面都取得了一致的改进。我们的最终系统达到了最新的性能并在 MER-MULTI 子挑战中排名第三。

Abstract

In this paper, we propose a novel framework for recognizing both discrete and dimensional emotions. In our framework, →

framework emotions deep features attention-guided feature gathering emotion classification

发现论文，激发创造

野外情感维度识别的联合多模态变压器

通过使用多模态 Transformer 架构，全面利用视频中视觉和听觉模态之间的交互和内部依赖关系，以识别音频视觉表情和声音模式，该模型在 Affwild2 数据集上表现出优越性能。

Mar, 2024

MER 2023: 多标签学习，模态鲁棒性和半监督学习

该研究使用多模态特征测试了三个情感识别子挑战任务，提供了具有竞争力的基础模型，为提高情感识别的鲁棒性和发展实际应用技术提供了一些新思路。

Apr, 2023

基于深度多模态学习的口语情感识别

本文提出了一种新颖的深度多模态框架，基于句子级别的口语语言预测人类情感，通过混合式的深度多模态结构从文本和音频中提取高级特征，再使用三层深度神经网络将所有特征融合起来进行训练，实现整个结构的最优全局微调，结果表明本文框架在 IEMOCAP 数据集上达到了 60.4% 的加权准确率。

Feb, 2018

使用视觉、音频和文本特征进行多模态话语级情感分析

本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构，其优于单模态基线，并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。

May, 2018

音视频情感识别的细节增强的模态内外交互

我们提出了一个基于详细增强的模态内部和模态间交互网络（DE-III）的音频 - 视觉情感识别方法，利用光流信息丰富视频的纹理细节以捕捉面部状态变化，进一步改进视频和音频的丰富性和可区分性，通过详细的定量评估，我们的模型在三个基准数据集上都超过了现有方法，适用于具体和连续情感识别。

May, 2024

情感回归和分类任务中处理单一和多模态的多功能视听学习

提出了用于处理单模式和多模式情感情况的多功能音视频学习框架，通过音视频共享层，残差连接和单模态重构任务实现有效的表示学习，在情感属性预测任务上达到了新的最先进性能。

May, 2023

基于人脑多视角多标签细粒度情感解码

本文提出了一种用于通过大脑活动数据进行情绪识别的新型多视图、多标签的混合模型，可以同时学习表达性的神经表示并多元预测情绪状态，通过实验表明该方法具有较高的识别准确率。

Oct, 2022

视频中多模态特征提取和基于注意力的融合情绪估计

本文介绍了一个基于多模态的情感估计框架，通过提取比赛数据集中的不同长度的视频的多模态特征，包括音频、姿态和图像，确定情感趋势。该系统在验证数据集中达到 0.361 的性能。

Mar, 2023

MER 2024：半监督学习、噪声鲁棒性和开放词汇多模态情感识别

多模态情感识别是人工智能中的重要研究课题，为推动该领域的发展，我们计划组织一系列关于情感识别的挑战活动，其中包括扩大数据集规模、引入新的跟踪领域和鼓励参与者描述角色的情感状态。

Apr, 2024

野外视频情感分类的时间多模态融合

本文通过使用卷积神经网络改进面部描述符，并探索多种融合方法，建立并优化 CNN 架构，解决情感分类问题，获得了 2017 年 “Emotion in the Wild” 挑战赛第四名的准确性，达到了 58.8％。

Sep, 2017