出门看前方：基于运动和外观相互协作的视频问答网络

ACLJun, 2021

出门看前方：基于运动和外观相互协作的视频问答网络

Attend What You Need: Motion-Appearance Synergistic Networks for Video Question Answering

Ahjeong Seo, Gi-Cheon Kang, Joonhan Park, Byoung-Tak Zhang

TL;DR本文提出了基于运动和外貌信息的交叉模态特征嵌入的 MASN 网络用于视频问答任务，通过问题导向的融合实现了最新的表现，并在 TGIF-QA 和 MSVD-QA 上实现了新的最佳性能。

Abstract

video question answering is a task which requires an ai agent to answer questions grounded in video. This task entails three key challenges: (1) understand the intention of various questions, (2) capturing variou

video question answering ai agent motion-appearance synergistic networks cross-modal grounding state-of-the-art performance

发现论文，激发创造

运动 - 外观联合记忆网络用于视频问答

提出了一种基于运动 - 外观共现记忆网络的视频问答方法，采用动态记忆网络和新机制，在长序列中推断不同问题所需的帧数，利用多级上下文事实构建时间表示，并在 TGIF-QA 数据集上表现出明显优越性。

Mar, 2018

桥接到答案：面向视频问答的结构感知图交互网络

本文提出了一种名为 Bridge to Answer 的新方法，通过利用异构交叉模式图的充分图交互来推断有关给定视频的问题的正确答案，通过学习问题调节的视觉图，对视觉节点使用问题 - 视觉交互来包含视觉和语言线索，并通过将问题图作为中间桥梁来将两个互补的视觉信息放在一起，使可靠的信息传递，以生成适当的答案，从而证明了该方法在视频问答方面提供了有效的上乘表现。

Apr, 2021

通过模块化运动程序进行动作问答

我们提出了一个名为 HumanMotionQA 的任务来评估模型在长形式人体运动序列上的复杂多步推理能力，同时提出了一种名为 NSPose 的神经符号方法。该方法使用符号推理和模块化设计通过学习运动概念、属性神经算子和时间关系来地面运动。我们演示了 NSPose 在 HumanMotionQA 任务上的适用性，优于所有基线方法。

May, 2023

多模态视频问答的情感转移注意力网络

该论文提出了一种称为模态转移关注网络的模型解决多模式视频问答任务，该模型对任务进行任务分解并使用时间提议网络和异构推理网络进行处理，通过模态转移进行任务的执行，这种模型在 TVQA 基准数据集上的实验结果表明它优于之前的最优性能，达到 71.13％的测试准确率，并开展了广泛的消融研究和定性分析以验证网络的各个组件。

Jul, 2020

通过属性增强的注意力网络学习进行视频问答

本文研究了如何利用带有特征增强的关注网络学习框架，旨在建立一个能够模拟视频内容的时间动态、实现统一视频表示学习的框架，同时在已构建的大型视频问答数据集上验证其性能，结果表明新模型在选择和开放问题任务上具有有效性。

Jul, 2017

异构内存增强的多模态注意力模型用于视频问答

本文提出了一种新的端到端可训练的视频问答（VideoQA）框架，包含三个主要组成部分：新的异构内存、重设计的问题内存和新的多模式融合层，其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案，实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。

Apr, 2019

从特征和样本的视角重新思考视频问答中的多模态对齐

本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法，并在 NExT-QA 基准测试上表现出很高的性能。

Apr, 2022

探索动作和外貌信息用于时间性语句定位

本篇文章提出了一种 Motion-Appearance Reasoning Network 模型，结合了时间感知和外观感知的对象特征来更好地推理连续帧之间的活动关系，用于解决时间语句概括问题，实验证明其明显优于现有方法。

Jan, 2022

利用多任务学习获取多模态视频问答的额外监督

该研究提出通过多任务学习获得额外监督的方法，解决多模态视频问答建立大规模数据集昂贵且现有基准数据集较小的挑战。该方法由多模态视频问答网络、时间检索网络和模态对齐网络组成，通过层次共享中间层同时解决相关的辅助任务提供额外的协同监督，并提出多任务比率调度的方法进行训练。实验结果表明，该方法在公开数据集 TVQA 上实现了最先进的效果。

May, 2019

探索基于光流引导的运动和检测的外观在长时句子理解中的应用

本文提出了一种运用运动和外观引导的三维语义推理网络（MA3SRN）实现时序句子定位，该网络能准确地建模相邻帧之间的活动，并获得在三个具有挑战性的数据集上的最新最好成果。

Mar, 2022