基于回归的情感识别中的音视频融合中的递归联合注意力

Apr, 2023

基于回归的情感识别中的音视频融合中的递归联合注意力

Recursive Joint Attention for Audio-Visual Fusion in Regression based Emotion Recognition

R Gnana Praveen, Eric Granger, Patrick Cardinal

TL;DR本文提出了一种递归联合注意模型，结合长短期记忆模块，用于融合语音和面部表情进行基于回归的情感识别，结果表明该模型比现有技术表现更好。

Abstract

In video-based emotion recognition (ER), it is important to effectively leverage the complementary relationship among audio (A) and visual (V) modalities, while retaining the intra-modal characteristics of individual modalities. In this paper, a →

video-based emotion recognition audio-visual modalities recursive joint attention model long short-term memory modules regression-based er

发现论文，激发创造

基于递归融合的联合交叉注意力的音视频人员验证

通过递归融合的联合交叉关注模型和 BLSTMs，本研究有效地捕捉音频和视觉模态之间的内在和跨模态关系，显著提高了融合性能。

Mar, 2024

情感维度识别中的递归跨模态注意力的多模态融合

通过跨模态注意力和时间卷积网络，提出了一种用于多模态情感识别的模型，能够有效地捕捉不同模态之间的互补关系，并在赛事中实现显著改进。

Mar, 2024

野外情感维度识别的联合多模态变压器

通过使用多模态 Transformer 架构，全面利用视频中视觉和听觉模态之间的交互和内部依赖关系，以识别音频视觉表情和声音模式，该模型在 Affwild2 数据集上表现出优越性能。

Mar, 2024

通过联合注意力的递归融合实现音视频事件定位

本研究提出了一种新的多模态融合联合注意力机制，能够有效地从视听特征中学习联合表示，并通过递归式联合协同作用持续改进，从而在音视频事件定位任务中取得了明显的成果。

Aug, 2020

情感回归和分类任务中处理单一和多模态的多功能视听学习

提出了用于处理单模式和多模式情感情况的多功能音视频学习框架，通过音视频共享层，残差连接和单模态重构任务实现有效的表示学习，在情感属性预测任务上达到了新的最先进性能。

May, 2023

音视频说话人验证基于联合交叉注意力

通过跨模态联合注意力来提升说话人验证的性能，进一步发掘音频和视觉融合在说话人验证领域的潜力。

Sep, 2023

多模态条件注意力融合在情感维度预测中的应用

该研究提出了一种名为条件注意融合的新型多模态融合策略，将长短期记忆循环神经网络应用为基础单模态模型，自动决定分配给不同情感模态的权重，获得了在情感价值预测方面优于多种常见融合策略的实验结果。

Sep, 2017

端到端音视频语音识别的模态注意力

该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法，在清洁和嘈杂的条件下均能获得更好的识别性能，可以轻松地推广到其他多模态任务中。

Nov, 2018

使用视觉、音频和文本特征进行多模态话语级情感分析

本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构，其优于单模态基线，并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。

May, 2018

音视频情感识别的细节增强的模态内外交互

我们提出了一个基于详细增强的模态内部和模态间交互网络（DE-III）的音频 - 视觉情感识别方法，利用光流信息丰富视频的纹理细节以捕捉面部状态变化，进一步改进视频和音频的丰富性和可区分性，通过详细的定量评估，我们的模型在三个基准数据集上都超过了现有方法，适用于具体和连续情感识别。

May, 2024