LaTr: 面向场景文本 VQA 的布局感知 Transformer

Dec, 2021

LaTr: 面向场景文本 VQA 的布局感知 Transformer

LaTr: Layout-Aware Transformer for Scene-Text VQA

Ali Furkan Biten, Ron Litman, Yusheng Xie, Srikar Appalaraju, R. Manmatha

TL;DR提出了一种新的多模态体系结构 Layout-Aware Transformer（LaTr）来进行场景文本视觉问答（STVQA），并提出了一种单一目标的预训练方案，该方案仅需要文本和空间线索。 LaTr 通过将语言和布局信息联系起来，可以学习各种空间线索，从而提高了对 OCR 错误的鲁棒性，并在多个数据集上优于最先进的 STVQA 方法。

Abstract

We propose a novel multimodal architecture for Scene Text Visual Question Answering (STVQA), named layout-aware transformer (LaTr). The task of STVQA requires models to reason over different modalities. Thus, we

scene text visual question answering multimodal architecture layout-aware transformer ocr errors pre-training scheme

发现论文，激发创造

定位再生成：通过边界框桥接视觉和语言进行场景文本 VQA

提出了一个用于场景文本视觉问答的多模态框架，采用 “先定位再生成” 的范式，将空间边界框作为连接文本和视觉模态的桥梁，通过预先训练的语言模型增强绝对准确率。

Apr, 2023

面向 TextVQA 的空间感知多模态 Transformer

本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型，可以有效地推理图像中的文本内容，改进了 TextVQA 和 ST-VQA 两个关键指标，同时为视觉绑定的研究方向提供了新的思路。

Jul, 2020

基于 OCR 模态扰动的场景文本视觉问答对抗训练

本研究提出了一种多模态的对抗训练架构，其中引入了对抗性 OCR 增强（AOE）模块和空间感知自注意力（SASA）机制，旨在改善场景文本视觉问答的性能，并为多模态对抗训练提供了新的方法。

Mar, 2024

Text-Image-Layout Transformer 技术在文档理解中的全面应用

本文介绍了 TILT 神经网络架构，该架构同时学习布局信息、视觉特征和文本语义的自然语言理解方式。与以往的方法不同，我们依赖于一个能够统一涉及自然语言的各种问题的解码器。该架构的核心是一个预训练的编码器 - 解码器 Transformer，其中布局表示为注意力偏差，并与上下文化的视觉信息相结合。我们的新方法在从文档中提取信息并回答需要布局理解的问题（如 DocVQA、CORD、SROIE）方面取得了最先进的结果。同时，我们通过采用端到端模型简化了该过程。

Feb, 2021

问题感知视觉变换器用于多模态推理

QA-ViT 是一种用于多模态推理的问题感知视觉 Transformer 方法，通过将问题感知能力直接嵌入到视觉编码器中，实现动态视觉特征，并且可以有效地应用于各种多模态架构，提高对视觉和场景文本的理解能力。

Feb, 2024

文档布局分析的视觉网格变换器

本文介绍了 VGT 模型，它是一种双流视觉格点变换器，通过提出并预训练 GiT 来实现 2D 令牌级和段级语义理解，利用多模态信息和预训练技术为文档布局分析学习更好的表示。此外，还通过 D$^4$LA 数据集，在文档布局分析中达到了最新的最佳性能。

Aug, 2023

LAMPRET：面向布局的多模态文档预训练理解

本论文提出了一种基于多模态 Transformer 的分层框架（LAMPreT），并通过分层预训练来训练模型，以实现对文档布局的理解及其内部内容的分类和组合，来更好地进行文本块填充和图像建议两项任务。

Apr, 2021

LayoutLMv2: 多模态预训练用于视觉丰富的文档理解

LayoutLMv2 提出了一种新的预训练架构，通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制，在预训练阶段更好地捕获跨模态交互，实现在 FUNSD，CORD，SROIE，Kleister-NDA，RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。

Dec, 2020

LAMBERT: 面向布局的（语言）建模用于信息提取

在 OCR 系统获取的布局特征的基础上，改进 Transformer 编码器的结构来构建布局感知的语言模型，展示在信息提取方面的出色性能。

Feb, 2020

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019