面向 TextVQA 的空间感知多模态 Transformer

Jul, 2020

面向 TextVQA 的空间感知多模态 Transformer

Spatially Aware Multimodal Transformers for TextVQA

Yash Kant, Dhruv Batra, Peter Anderson, Alex Schwing, Devi Parikh...

TL;DR本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型，可以有效地推理图像中的文本内容，改进了 TextVQA 和 ST-VQA 两个关键指标，同时为视觉绑定的研究方向提供了新的思路。

Abstract

Textual cues are essential for everyday tasks like buying groceries and using public transport. To develop this assistive technology, we study the textvqa task, i.e., reasoning about text in images to answer a qu

textvqa assistive technology spatially aware self-attention ocr tokens visual grounding

发现论文，激发创造

面向 TextVQA 的结构化多模态关注力

本文提出了一种端到端的结构化多模态关注神经网络，通过使用图形表示和多模态图形注意网络设计来处理 TextVQA 中的可视文本问答问题，并通过全局 - 本地注意回答模块生成答案，其中使用了 OCR 和通用词汇识别技术。实验证明该模型在 TextVQA 数据集和 ST-VQA 数据集等两个任务中超过了 SoTA 模型。

Jun, 2020

问、看、答：探索基于问题引导的空间关注用于视觉问答

该论文探讨了图像和语言理解的问题，提出了一种基于神经网络的空间记忆网络模型，通过注意力机制进行推理，并在两个视觉问答数据集上取得了改进的结果。

Nov, 2015

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019

R-VQA: 通过语义关注学习视觉关系事实用于视觉问答

通过构建 Relation-VQA 数据集，并采用新颖的多步注意力模型，该论文提出了一种更好地利用图像语义知识的视觉关系事实学习框架，从而在视觉问答任务中取得了最先进的性能。

May, 2018

视觉问答中的问题类型引导注意力机制

本文提出了一个名为 Question Type-guided Attention (QTA) 的方法，利用问题类型信息动态平衡从 ResNet 和 Faster R-CNN 网络中分别提取的自下而上和自上而下的视觉特征。在 TDIUC 数据集上进行了多项输入实验，并显示 QTA 显著提高了多个问题类型类别的性能，例如 “活动识别”、“效用” 和 “计数”。添加 QTA 后，我们在最先进的 MCB 模型上实现了 3％的总体准确度提高。最后，我们提出了一个多任务扩展以预测问题类型，在缺少问题类型的应用程序中推广 QTA，性能损失最小。

Apr, 2018

基于 OCR 模态扰动的场景文本视觉问答对抗训练

本研究提出了一种多模态的对抗训练架构，其中引入了对抗性 OCR 增强（AOE）模块和空间感知自注意力（SASA）机制，旨在改善场景文本视觉问答的性能，并为多模态对抗训练提供了新的方法。

Mar, 2024

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

基于 POS 标记引导注意力的结构三元组学习用于视觉问答

本文探索在 VQA 多项选择任务中设计有效的 VQA 模型的良好实践，并通过结构学习、POS 标签引导的注意力机制等手段构建视觉问答模型，评估结果在视觉 7W 和 VQA 多选数据集上取得了最好的 68.2% 和最竞争的 69.6% 的准确率。

Jan, 2018

问题感知视觉变换器用于多模态推理

QA-ViT 是一种用于多模态推理的问题感知视觉 Transformer 方法，通过将问题感知能力直接嵌入到视觉编码器中，实现动态视觉特征，并且可以有效地应用于各种多模态架构，提高对视觉和场景文本的理解能力。

Feb, 2024

LaTr: 面向场景文本 VQA 的布局感知 Transformer

提出了一种新的多模态体系结构 Layout-Aware Transformer（LaTr）来进行场景文本视觉问答（STVQA），并提出了一种单一目标的预训练方案，该方案仅需要文本和空间线索。 LaTr 通过将语言和布局信息联系起来，可以学习各种空间线索，从而提高了对 OCR 错误的鲁棒性，并在多个数据集上优于最先进的 STVQA 方法。

Dec, 2021