多粒度模态注意力网络用于密集情感理解

CVPRJun, 2021

多粒度模态注意力网络用于密集情感理解

Multi-Granularity Network with Modal Attention for Dense Affective Understanding

Baoming Yan, Lin Wang, Ke Gao, Bo Gao, Xiao Liu...

TL;DR本研究提出了一种多粒度网络模型，结合模态注意力和 MOE 分类器，旨在实现视频情感理解和表情预测，在 EEV 挑战中取得 0.02292 的相关分数。

Abstract

video affective understanding, which aims to predict the evoked expressions by the video content, is desired for video creation and recommendation. In the recent eev challenge, a dense affective understanding tas

video affective understanding multi-granularity network modal attention fusion mixtures of experts classifier eev challenge

发现论文，激发创造

多粒度感知网络用于视频中的时刻检索

该论文提出了一种新的多粒度感知网络 (MGPN)，旨在改善视频中的时刻检索，将时刻检索建模为一种多选阅读理解任务，结合人类阅读策略，并通过优化算法提高了检索精度。

May, 2022

多通道注意力图卷积神经网络结合情感融合进行多模态情感分析

本文介绍了一个基于多通道注意力图卷积网络（MAGCN）的多模态情感分析框架，它将情感知识融合到跨模态交互学习中，并在多个数据集上实现了竞争性表现。

Jan, 2022

MDAN：面向视觉情感分析的多层依赖注意力网络

本文提出了一个名为 “多层依赖注意力网络”（MDAN）的深度学习框架，通过融合全局学习和局部学习优化网络，采用底层朴素贝叶斯分类器、自底而上的分类器和自顶而下的情感语义映射分类器来消除视觉线索和图片表达情感之间的 “情感差距”，同时设计两种注意力模块以恰当地提取和利用通道相关性和空间注意力，相比现有技术在 6 个视觉情感分析基准上取得了新的最优性能。

Mar, 2022

基于多模态深度模型的电影情感反应预测

本研究旨在开发和分析多模态模型，预测观众观看电影片段时的情感反应。研究发现，通过提取 RGB 帧和光流的特征以及音频中的各种低级描述符，采用深度神经网络模型来进行情感预测更为精确。其中，光流特征比 RGB 视频更加信息含量丰富，且音频特征的预测精度高于视频特征。

Sep, 2019

使用视觉、音频和文本特征进行多模态话语级情感分析

本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构，其优于单模态基线，并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。

May, 2018

基于多粒度信息融合的社交媒体多模态假新闻检测

文章介绍了一种用于检测假新闻的多粒度多模态融合网络模型，并将模型性能与现有方法进行了比较。

Apr, 2023

多模态条件注意力融合在情感维度预测中的应用

该研究提出了一种名为条件注意融合的新型多模态融合策略，将长短期记忆循环神经网络应用为基础单模态模型，自动决定分配给不同情感模态的权重，获得了在情感价值预测方面优于多种常见融合策略的实验结果。

Sep, 2017

基于注意力的多模态融合视频描述

本文提出了一种称为多模态注意力的方法，可以针对图像特征、运动特征和音频特征进行选择性关注，以促进视频描述的多模态信息融合，并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。

Jan, 2017

基于双向注意力对多模态情感识别的群门融合

本文提出了一种新的模型 —— 门控双向对齐网络（GBAN），该模型利用注意力机制的双向对齐网络和一种新颖的分组门控融合层来明确捕捉语音和文本之间的对齐关系，并在不同模态中集成表示，从而在 IEMOCAP 数据集上优于现有的最先进的多模态方法。

Jan, 2022

利用分层注意策略和词级对齐的多模态情感分析

本文研究了从多个数据来源中学习识别和解释人类情感和主观信息的多模态情感计算问题，提出了一种基于 attention 机制和单词级融合的分层多模态体系结构，以从文本和音频数据中分类识别发言级别的情感和情绪。结果表明，该模型在现有数据集上表现优异。

May, 2018