视觉问答中的聚焦视觉 - 文本注意力
本文提出了一种改进的基于注意力机制的架构,其中包括一个对注意力结果和查询进行关系确定的 AoA 模块,并提出了多模态融合模块来组合视觉和文本信息,结果在 VQA-v2 基准数据集上达到了最先进的性能。
Nov, 2020
本文提出了一种结构化的双流注意力网络(STA)来解决视频问答(VQA),该网络可以识别视频中的长时空结构和文本特征,并将视觉与文本融合以提供准确的答案,在大规模视频 QA 数据集 TGIF-QA 上实验表明,STA 可将 Action,Trans,TrameQA 和 Count 任务的最佳效果提高 13.0%,13.5%,11.0%和 0.3%,在 Action,Trans,TrameQA 任务上也比最佳竞争对手提高 4.1%,4.7%和 5.1%。
Jun, 2022
本文提出了一个名为 Question Type-guided Attention (QTA) 的方法,利用问题类型信息动态平衡从 ResNet 和 Faster R-CNN 网络中分别提取的自下而上和自上而下的视觉特征。在 TDIUC 数据集上进行了多项输入实验,并显示 QTA 显著提高了多个问题类型类别的性能,例如 “活动识别”、“效用” 和 “计数”。添加 QTA 后,我们在最先进的 MCB 模型上实现了 3%的总体准确度提高。最后,我们提出了一个多任务扩展以预测问题类型,在缺少问题类型的应用程序中推广 QTA,性能损失最小。
Apr, 2018
本文提出了一种基于 Focused Dynamic Attention 模型的视觉问答方法,该方法通过结合全局特征和重点区域信息,能够更好地处理细粒度信息和语言语义,进而提高了视觉问答的表现。
Apr, 2016
本文研究了如何利用带有特征增强的关注网络学习框架,旨在建立一个能够模拟视频内容的时间动态、实现统一视频表示学习的框架,同时在已构建的大型视频问答数据集上验证其性能,结果表明新模型在选择和开放问题任务上具有有效性。
Jul, 2017
该论文探讨了图像和语言理解的问题,提出了一种基于神经网络的空间记忆网络模型,通过注意力机制进行推理,并在两个视觉问答数据集上取得了改进的结果。
Nov, 2015
通过构建 Relation-VQA 数据集,并采用新颖的多步注意力模型,该论文提出了一种更好地利用图像语义知识的视觉关系事实学习框架,从而在视觉问答任务中取得了最先进的性能。
May, 2018
本文提出了一种新的端到端可训练的视频问答(VideoQA)框架,包含三个主要组成部分:新的异构内存、重设计的问题内存和新的多模式融合层,其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案,实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。
Apr, 2019
本文提出一种新颖的端到端问题聚焦的多因素注意网络,用于回答提问文本中的问题,通过张量变换实现多因素关注编码,以对散布在多个句子中的信息进行建模,并采用最大化注意聚合机制来对提问文本进行编码,从而实现对问题类型的隐式推断,并在三个大型挑战性问题回答数据集中实现了显著的性能提升。
Jan, 2018