使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

CVPRNov, 2019

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA

Ronghang Hu, Amanpreet Singh, Trevor Darrell, Marcus Rohrbach

TL;DR本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Abstract

Many visual scenes contain text that carries crucial information, and it is thus essential to understand text in images for downstream reasoning tasks. For example, a deep water label on a warning sign warns people about the danger in the scene. Recent work has explored the textvqa tas

textvqa multimodal transformer self-attention dynamic pointer network iterative answer decoding

发现论文，激发创造

多问题多答案文本视觉问答

通过多问多答（MQMA）方法，在编码 - 解码变压器模型中进行文本 - VQA（Visual Question Answering）。通过多次将不同问题和内容输入到模型中进行预测，实现对同一图像的多问题回答预测。提出几个新颖的架构修改来支持 MQMA，并且通过 MQMA 去噪的预训练任务，使模型能够对多个问题以及相关答案进行对齐和划分。在多个文本 - VQA 数据集上，MQMA 预训练模型实现了与先前最先进方法相比的明显改进（OCR-VQA：+2.5％，TextVQA：+1.4％，ST-VQA：+0.6％，DocVQA：+1.1％）。

Nov, 2023

面向 TextVQA 的空间感知多模态 Transformer

本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型，可以有效地推理图像中的文本内容，改进了 TextVQA 和 ST-VQA 两个关键指标，同时为视觉绑定的研究方向提供了新的思路。

Jul, 2020

视频问答的时域金字塔变换器和多模态交互

本文提出了一种基于时域金字塔变换器的多模交互模型，用于视频问答，实现了问题语义的建立和视频信息的推断，并在三个视频问答数据集上通过了广泛的实验证明了该方法相较于现有技术的卓越表现。

Sep, 2021

多模态图神经网络用于视觉场景联合推理

利用多模式图神经网络（MM-GNN）作为一种视觉问答（VQA）方法，通过将图像表示为由三个子图组成的图形，利用场景文本中的各种信息来提高节点特征，从而显著提高需要阅读场景文本的两项 VQA 任务的性能。

Mar, 2020

MMFT-BERT：基于 BERT 编码的多模态融合转换器用于视觉问答

MMFT-BERT 是一种多模态融合 Transformer 网络，利用 BERT 编码技术在视频和文本上进行数据处理，并通过新型的 Transformer 融合方法实现多模态输入的组合，该方法在 TVQA 数据集上取得了 SOTA 结果。

Oct, 2020

初探：通过视觉和文本解释实现可解释的 TextVQA 模型

该论文提出了一种可解释的深度学习模型 - MTXNet，着重于图像中的文本的多模态解释生成，并使用包含视觉信息和多种文本解释的新颖数据集 TextVQA-X 进行训练和评估，显示出该多模态解释与人类解释一致，有助于为模型的决策提供有用的见解。该模型解释效果的得分在 CIDEr 方面优于单模态模型至多 7％，在 IoU 方面优于单模态模型至多 2％。

Apr, 2021

问题感知视觉变换器用于多模态推理

QA-ViT 是一种用于多模态推理的问题感知视觉 Transformer 方法，通过将问题感知能力直接嵌入到视觉编码器中，实现动态视觉特征，并且可以有效地应用于各种多模态架构，提高对视觉和场景文本的理解能力。

Feb, 2024

MultiModalQA: 文本、表格和图像的复杂问答

本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集，该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题，并演示了多模态多跳方法在解决这一任务中的必要性。

Apr, 2021

根据要求进行设计：利用视觉问答进行多模态预训练

我们利用多模态预训练中的视觉问题回答（VQA）指导框架，聚焦目标病理特征，通过医学报告中的描述设计了关联不同疾病的多粒度问题 - 答案对，并提出了一种基于准文本特征变换的新型预训练框架，将视觉特征转化为接近文本领域的准文本空间，缩小了视觉 - 语言差距，实现了模态对齐。在四个下游任务（报告生成、分类、分割和检测）的五个数据集上，广泛的实验证明了我们的框架相比其他最先进的方法的优越性。我们的代码将在接受后发布。

Mar, 2024

多模态问答的多模态图形转换器

本文提出一种多模态图变换器，它利用了文本和视觉数据的多模态信息，并通过结构化学习和图神经网络的方法对自注意力进行约束以提高推理能力，适用于需要跨多个模态执行推理的问题回答任务。我们通过在 GQA，VQAv2 和 MultiModalQA 数据集上进行实验来验证这种方法的有效性，表明多模态图变换器优于 Transformer 模型基线。

Apr, 2023