野外情感维度识别的联合多模态变压器

Mar, 2024

野外情感维度识别的联合多模态变压器

Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild

Paul Waligora, Osama Zeeshan, Haseeb Aslam, Soufiane Belharbi, Alessandro Lameiras Koerich...

TL;DR通过使用多模态 Transformer 架构，全面利用视频中视觉和听觉模态之间的交互和内部依赖关系，以识别音频视觉表情和声音模式，该模型在 Affwild2 数据集上表现出优越性能。

Abstract

audiovisual emotion recognition (ER) in videos has immense potential over unimodal performance. It effectively leverages the inter- and intra-modal dependencies between visual and auditory modalities. This work proposes a novel audio-visual emotion recognition system utilizing a joint

audiovisual emotion recognition multimodal transformer architecture visual cues vocal patterns affwild2 dataset

发现论文，激发创造

基于回归的情感识别中的音视频融合中的递归联合注意力

本文提出了一种递归联合注意模型，结合长短期记忆模块，用于融合语音和面部表情进行基于回归的情感识别，结果表明该模型比现有技术表现更好。

Apr, 2023

基于多标签联合解码的层次音视频信息融合在 MER 2023 上的应用

我们提出了一个用于识别离散和维度情感的新框架，通过从基础模型中提取的深度特征作为原始视频的鲁棒声学和视觉表示，设计了三种基于注意力引导特征汇集的不同结构用于深度特征融合，并在解码阶段引入了联合解码结构用于情感分类和价值回归。我们还设计了基于不确定性的多任务损失来优化整个过程。最后，通过在后验概率级别上结合三种不同的结构，我们获得了离散和维度情感的最终预测。当在多模态情感识别挑战数据集（MER 2023）上进行测试时，该提出的框架在情感分类和价值回归方面都取得了一致的改进。我们的最终系统达到了最新的性能并在 MER-MULTI 子挑战中排名第三。

Sep, 2023

基于 Transformer 的视频情感反应强度估计和表达分类的多模态特征提取与融合

本文论述了针对 ABAW2023 中的情感行为分析领域的两个子挑战 - 表情分类和情感反应强度评估的高级解决方案。该方案使用了多种模型和工具来提取多模态特征，并有效地处理分类中的挑战，从而显著提高了模型在多模态情况下的情感预测精度。在情感反应强度评估方面，我们的方法超过了基线方法 84％，并在验证数据集上取得了出色的结果。

Mar, 2023

使用预训练转换器进行文本、语音和视频的多模态情绪识别

通过使用多模态感情识别方法和各种融合技术，本研究在 IEMOCAP 多模态数据集上实现了 75.42% 的准确率，主要关注多模态感情识别、自监督学习、迁移学习和 Transformer 模型。

Feb, 2024

使用视觉、音频和文本特征进行多模态话语级情感分析

本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构，其优于单模态基线，并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。

May, 2018

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

情感和情绪分类的多模态关系张量网络

本文介绍一种基于 Relational Tensor Network 架构并运用丰富的音频和语言上下文以及细粒度的文本情感极性得分融合方法来模拟视频中不同模态之间交互的方法，并在 CMU-MOSEI 数据集上表现出优越的情感分类和情感识别结果。

Jun, 2018

基于多模态数据的情绪反应强度估计

本文介绍了我们在 CVPR 2023：Affective Behavior Analysis in-the-wild (ABAW) 第 5 次研讨会和比赛中进行情感反应强度 (ERI) 估计挑战的方法，通过基于多模态数据提取声学和视觉特征，提高了我们的模型表现能力，并使用 Transformer 编码器进行交叉模态关注机制，从而提高了与基线的 Pearson 相关系数。

Mar, 2023

音视频情感识别的细节增强的模态内外交互

我们提出了一个基于详细增强的模态内部和模态间交互网络（DE-III）的音频 - 视觉情感识别方法，利用光流信息丰富视频的纹理细节以捕捉面部状态变化，进一步改进视频和音频的丰富性和可区分性，通过详细的定量评估，我们的模型在三个基准数据集上都超过了现有方法，适用于具体和连续情感识别。

May, 2024

情感回归和分类任务中处理单一和多模态的多功能视听学习

提出了用于处理单模式和多模式情感情况的多功能音视频学习框架，通过音视频共享层，残差连接和单模态重构任务实现有效的表示学习，在情感属性预测任务上达到了新的最先进性能。

May, 2023