异构内存增强的多模态注意力模型用于视频问答

Apr, 2019

异构内存增强的多模态注意力模型用于视频问答

Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering

Chenyou Fan, Xiaofan Zhang, Shu Zhang, Wensheng Wang, Chi Zhang...

TL;DR本文提出了一种新的端到端可训练的视频问答（VideoQA）框架，包含三个主要组成部分：新的异构内存、重设计的问题内存和新的多模式融合层，其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案，实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。

Abstract

In this paper, we propose a novel end-to-end trainable Video Question Answering (VideoQA) framework with three major components: 1) a new heterogeneous memory which can effectively learn global context information from appearance and motion features; 2) a redesigned question memory which helps understand the complex semantics of question and highlights queri

video question answering end-to-end trainable framework multimodal fusion layer global context-aware features state-of-the-art performance

发现论文，激发创造

从特征和样本的视角重新思考视频问答中的多模态对齐

本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法，并在 NExT-QA 基准测试上表现出很高的性能。

Apr, 2022

视频故事问答的多模态双重关注记忆

本研究提出一种视频故事问答架构，名为 Multimodal Dual Attention Memory （MDAM）。使用双重注意机制，结合自我注意力和注意力机制在场景帧和字幕中学习潜在的概念，并在双重注意力处理后执行多模态融合，从而学习从整个视频内容的抽象中推断出高级视觉语言联合表示。在 PororoQA 和 MovieQA 数据集上，该模型均取得了新的最优结果，并通过消融研究验证了双重注意机制与后期融合的最佳性能。

Sep, 2018

通过属性增强的注意力网络学习进行视频问答

本文研究了如何利用带有特征增强的关注网络学习框架，旨在建立一个能够模拟视频内容的时间动态、实现统一视频表示学习的框架，同时在已构建的大型视频问答数据集上验证其性能，结果表明新模型在选择和开放问题任务上具有有效性。

Jul, 2017

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

用于视频问答的结构化双流注意力网络

本文提出了一种结构化的双流注意力网络（STA）来解决视频问答（VQA），该网络可以识别视频中的长时空结构和文本特征，并将视觉与文本融合以提供准确的答案，在大规模视频 QA 数据集 TGIF-QA 上实验表明，STA 可将 Action，Trans，TrameQA 和 Count 任务的最佳效果提高 13.0％，13.5％，11.0％和 0.3％，在 Action，Trans，TrameQA 任务上也比最佳竞争对手提高 4.1％，4.7％和 5.1％。

Jun, 2022

利用多任务学习获取多模态视频问答的额外监督

该研究提出通过多任务学习获得额外监督的方法，解决多模态视频问答建立大规模数据集昂贵且现有基准数据集较小的挑战。该方法由多模态视频问答网络、时间检索网络和模态对齐网络组成，通过层次共享中间层同时解决相关的辅助任务提供额外的协同监督，并提出多任务比率调度的方法进行训练。实验结果表明，该方法在公开数据集 TVQA 上实现了最先进的效果。

May, 2019

运动 - 外观联合记忆网络用于视频问答

提出了一种基于运动 - 外观共现记忆网络的视频问答方法，采用动态记忆网络和新机制，在长序列中推断不同问题所需的帧数，利用多级上下文事实构建时间表示，并在 TGIF-QA 数据集上表现出明显优越性。

Mar, 2018

视觉问答的组合记忆

本文提出了一种直接模拟语言和所有可能的本地图像补丁之间的时态动态的端到端方法，使用注意机制将与单词相关的特征和多个本地补丁上可用的特征融合在一起，并将融合的信息进一步结合生成动态信息，最终通过标准问题回答模块和上下文视觉信息和语言信息一起完成问题回答。

Nov, 2015

多尺度采样的分层多级网络用于视频问答

本研究提出了一种新的多级分层网络（MHN），结合多重时间尺度和深度学习模型的多层次处理能力，通过 Multiscale Sampling 实现逐层交互式的表示学习，从而实现视频问题回答中的视觉推理。

May, 2022

模块化混合注意力网络用于视频问答

多模态机器学习中的网络结构复杂，通过连接可重用且可组合的神经单元，可以以更直观的方式完成多模态机器学习任务的网络构建，同时通过参数共享大大减少了空间复杂度。

Nov, 2023