模块化混合注意力网络用于视频问答
本文提出了一种新的端到端可训练的视频问答(VideoQA)框架,包含三个主要组成部分:新的异构内存、重设计的问题内存和新的多模式融合层,其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案,实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。
Apr, 2019
通过构建和学习神经模块网络,同时利用深度网络的表示能力和问题的组成语言结构,将问题分解成语言子结构,并使用这些结构动态实例化模块化网络,在具有挑战性的视觉问题回答数据集上取得了最先进的结果。
Nov, 2015
该研究提出通过多任务学习获得额外监督的方法,解决多模态视频问答建立大规模数据集昂贵且现有基准数据集较小的挑战。该方法由多模态视频问答网络、时间检索网络和模态对齐网络组成,通过层次共享中间层同时解决相关的辅助任务提供额外的协同监督,并提出多任务比率调度的方法进行训练。实验结果表明,该方法在公开数据集 TVQA 上实现了最先进的效果。
May, 2019
该论文提出了一种称为模态转移关注网络的模型解决多模式视频问答任务,该模型对任务进行任务分解并使用时间提议网络和异构推理网络进行处理,通过模态转移进行任务的执行,这种模型在 TVQA 基准数据集上的实验结果表明它优于之前的最优性能,达到 71.13%的测试准确率,并开展了广泛的消融研究和定性分析以验证网络的各个组件。
Jul, 2020
本研究提出了一种统一的注意力模型,能够同时捕捉多模态特征的内部和跨模态之间的相互作用,并输出相应的注意力表示。通过堆叠这样的统一注意力块,我们获得了深度多模态统一注意力网络 (MUAN),可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型,结果表明 MUAN 在两个任务上都实现了顶级性能。
Aug, 2019
本文介绍一种基于自然语言字符串的问答模型,适用于图像和结构化知识库,通过可组合模块自动组装神经网络,并通过强化学习来学习这些模块的参数,同时只需要(世界、问题、答案)三元组作为监督,我们的方法(称为动态神经模型网络)在视觉和结构化领域的基准数据集上取得了最先进的结果。
Jan, 2016
本文提出了一种改进的基于注意力机制的架构,其中包括一个对注意力结果和查询进行关系确定的 AoA 模块,并提出了多模态融合模块来组合视觉和文本信息,结果在 VQA-v2 基准数据集上达到了最先进的性能。
Nov, 2020
本研究提出了一种新的多级分层网络(MHN),结合多重时间尺度和深度学习模型的多层次处理能力,通过 Multiscale Sampling 实现逐层交互式的表示学习,从而实现视频问题回答中的视觉推理。
May, 2022
通过开发十三种新的注意力机制和引入一种简化的分类器,基于首次在 VQA 挑战中获得第一名的模型进行改进,进行了 300 GPU 小时的大量超参数和架构搜索,我们能够实现 64.78%的评估分数,优于现有最先进的单个模型 63.15%的验证分数。
Mar, 2018