视觉问答中的聚焦视觉 - 文本注意力

CVPRJun, 2018

视觉问答中的聚焦视觉 - 文本注意力

Focal Visual-Text Attention for Visual Question Answering

Junwei Liang, Lu Jiang, Liangliang Cao, Li-Jia Li, Alexander Hauptmann

TL;DR本文介绍了一种名为 FVTA 的新型神经网络，它利用一种分层的动态过程来确定要解答问题时需要关注的媒体和时间，可以回答问题并提供系统答案的理由。FVTA 在 MemexQA 数据集上达到了最先进的性能，MovieQA 数据集上获得了有竞争力的结果。

Abstract

Recent insights on language and vision with neural networks have been successfully applied to simple single-image visual question answering. However, to tackle real-life question answering problems on

neural networks visual question answering multimedia collections focal visual-text attention collective reasoning

发现论文，激发创造

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

用于视频问答的结构化双流注意力网络

本文提出了一种结构化的双流注意力网络（STA）来解决视频问答（VQA），该网络可以识别视频中的长时空结构和文本特征，并将视觉与文本融合以提供准确的答案，在大规模视频 QA 数据集 TGIF-QA 上实验表明，STA 可将 Action，Trans，TrameQA 和 Count 任务的最佳效果提高 13.0％，13.5％，11.0％和 0.3％，在 Action，Trans，TrameQA 任务上也比最佳竞争对手提高 4.1％，4.7％和 5.1％。

Jun, 2022

视觉问答中的问题类型引导注意力机制

本文提出了一个名为 Question Type-guided Attention (QTA) 的方法，利用问题类型信息动态平衡从 ResNet 和 Faster R-CNN 网络中分别提取的自下而上和自上而下的视觉特征。在 TDIUC 数据集上进行了多项输入实验，并显示 QTA 显著提高了多个问题类型类别的性能，例如 “活动识别”、“效用” 和 “计数”。添加 QTA 后，我们在最先进的 MCB 模型上实现了 3％的总体准确度提高。最后，我们提出了一个多任务扩展以预测问题类型，在缺少问题类型的应用程序中推广 QTA，性能损失最小。

Apr, 2018

面向视觉问答的聚焦动态注意力模型

本文提出了一种基于 Focused Dynamic Attention 模型的视觉问答方法，该方法通过结合全局特征和重点区域信息，能够更好地处理细粒度信息和语言语义，进而提高了视觉问答的表现。

Apr, 2016

通过属性增强的注意力网络学习进行视频问答

本文研究了如何利用带有特征增强的关注网络学习框架，旨在建立一个能够模拟视频内容的时间动态、实现统一视频表示学习的框架，同时在已构建的大型视频问答数据集上验证其性能，结果表明新模型在选择和开放问题任务上具有有效性。

Jul, 2017

基于注意力模型的视觉问答算法分析

本文批判性地审查和回顾了视觉问答算法的方法，例如文本语义的生成、物体的识别和采用共同关注的答案分类技术。

May, 2023

问、看、答：探索基于问题引导的空间关注用于视觉问答

该论文探讨了图像和语言理解的问题，提出了一种基于神经网络的空间记忆网络模型，通过注意力机制进行推理，并在两个视觉问答数据集上取得了改进的结果。

Nov, 2015

R-VQA: 通过语义关注学习视觉关系事实用于视觉问答

通过构建 Relation-VQA 数据集，并采用新颖的多步注意力模型，该论文提出了一种更好地利用图像语义知识的视觉关系事实学习框架，从而在视觉问答任务中取得了最先进的性能。

May, 2018

异构内存增强的多模态注意力模型用于视频问答

本文提出了一种新的端到端可训练的视频问答（VideoQA）框架，包含三个主要组成部分：新的异构内存、重设计的问题内存和新的多模式融合层，其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案，实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。

Apr, 2019

一个面向问题的多要素注意力网络用于问答

本文提出一种新颖的端到端问题聚焦的多因素注意网络，用于回答提问文本中的问题，通过张量变换实现多因素关注编码，以对散布在多个句子中的信息进行建模，并采用最大化注意聚合机制来对提问文本进行编码，从而实现对问题类型的隐式推断，并在三个大型挑战性问题回答数据集中实现了显著的性能提升。

Jan, 2018