基于 OCR 模态扰动的场景文本视觉问答对抗训练

Mar, 2024

基于 OCR 模态扰动的场景文本视觉问答对抗训练

Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering

Zhixuan Shen, Haonan Luo, Sijia Li, Tianrui Li

TL;DR本研究提出了一种多模态的对抗训练架构，其中引入了对抗性 OCR 增强（AOE）模块和空间感知自注意力（SASA）机制，旨在改善场景文本视觉问答的性能，并为多模态对抗训练提供了新的方法。

Abstract

scene-text visual question answering (ST-VQA) aims to understand scene text in images and answer questions related to the text content. Most existing methods heavily rely on the accuracy of optical character recognition

scene-text visual question answering optical character recognition adversarial training spatial awareness multimodal adversarial training

发现论文，激发创造

ICDAR 2019 场景文本视觉问答竞赛

本文介绍了 ICDAR 2019 场景文本视觉问答比赛 (ST-VQA) 的最终结果和新数据集，包括 23038 张图像和 31791 个文本实例答案，涵盖广泛的情景。该竞赛共有 3 个递增的任务，需要理解场景中的文本并回答问题。提出了一种新的评估度量标准，旨在评估文本识别和图像理解两种关键能力。结果分析提供了 VQA 系统当前的能力洞见。此数据集标志着使用场景文本实现全面图像理解的更强大、更通用的模型的重要里程碑。

Jun, 2019

面向 TextVQA 的空间感知多模态 Transformer

本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型，可以有效地推理图像中的文本内容，改进了 TextVQA 和 ST-VQA 两个关键指标，同时为视觉绑定的研究方向提供了新的思路。

Jul, 2020

面向 TextVQA 的结构化多模态关注力

本文提出了一种端到端的结构化多模态关注神经网络，通过使用图形表示和多模态图形注意网络设计来处理 TextVQA 中的可视文本问答问题，并通过全局 - 本地注意回答模块生成答案，其中使用了 OCR 和通用词汇识别技术。实验证明该模型在 TextVQA 数据集和 ST-VQA 数据集等两个任务中超过了 SoTA 模型。

Jun, 2020

场景文本视觉问答

本文介绍了一个新数据集，即 ST-VQA，旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务，需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷，同时提出一系列基线方法。

May, 2019

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021

分离与定位：重新思考文本的文本视觉问答

TextVQA 问题解答中，我们提出了一种名为 Separate and Locate (SaL) 的新方法，该方法通过探索文本的上下文线索和设计空间位置嵌入来构建 OCR 文本之间的空间关系，从而在 TextVQA 和 ST-VQA 数据集上获得了较好的准确性改进，并且无需任何预训练任务。

Aug, 2023

LaTr: 面向场景文本 VQA 的布局感知 Transformer

提出了一种新的多模态体系结构 Layout-Aware Transformer（LaTr）来进行场景文本视觉问答（STVQA），并提出了一种单一目标的预训练方案，该方案仅需要文本和空间线索。 LaTr 通过将语言和布局信息联系起来，可以学习各种空间线索，从而提高了对 OCR 错误的鲁棒性，并在多个数据集上优于最先进的 STVQA 方法。

Dec, 2021

面向文本视觉问答的定位感知答案预测

本文提出了一种基于局部信息的答案预测网络，即 LaAP-Net，用于解决现有基于光学字符识别（OCR）或固定词汇的文本 VQA 系统中的局限性，其中定位信息得到了更好的利用。此外，提出了一种多模式融合技术，即 COR，为定位任务提供了额外的上下文信息。LaAP-Net 在三个基准数据集上的表现比现有方法都要好。

Oct, 2020

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019

通过对抗训练克服遥感视觉问答中的语言偏见

本研究提出了一种新的框架来减少 Visual Question Answering 系统中的语言偏差，具体地，在原 VQA 框架中添加了对抗分支和两个正则化器以限制训练过程中的语言偏差，并提出了一种新的性能度量方法来评估语言偏差，实验结果表明该方法简单有效。

Jun, 2023