本地化、分组和选择：通过场景文本建模提升文本 - VQA

Aug, 2021

本地化、分组和选择：通过场景文本建模提升文本 - VQA

Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling

Xiaopeng Lu, Zhen Fan, Yansen Wang, Jean Oh, Carolyn P. Rose

TL;DR本文提出了一种名为 Localize, Group, and Select (LOGOS) 的模型，它利用场景文本聚类和光学字符识别（OCR）技术来更好地定位图像的关键信息、实现跨模态理解，并从不同来源的 OCR 文本中选择最佳答案，成功解决了多模态上下文理解中的 Text-VQA 问题，实验表明，该模型在两个 Text-VQA 基准测试上表现优于其他方法。

Abstract

As an important task in multimodal context understanding, text-vqa (Visual Question Answering) aims at question answering through reading text information in images. It differentiates from the original VQA task as text-

text-vqa scene-text relationship logos grounding tasks ocr

发现论文，激发创造

定位再生成：通过边界框桥接视觉和语言进行场景文本 VQA

提出了一个用于场景文本视觉问答的多模态框架，采用 “先定位再生成” 的范式，将空间边界框作为连接文本和视觉模态的桥梁，通过预先训练的语言模型增强绝对准确率。

Apr, 2023

面向文本视觉问答的定位感知答案预测

本文提出了一种基于局部信息的答案预测网络，即 LaAP-Net，用于解决现有基于光学字符识别（OCR）或固定词汇的文本 VQA 系统中的局限性，其中定位信息得到了更好的利用。此外，提出了一种多模式融合技术，即 COR，为定位任务提供了额外的上下文信息。LaAP-Net 在三个基准数据集上的表现比现有方法都要好。

Oct, 2020

场景文本视觉问答

本文介绍了一个新数据集，即 ST-VQA，旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务，需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷，同时提出一系列基线方法。

May, 2019

提升文本 - 视觉问答中的文本表达

通过结合 TextVQA 和 VQA 数据集，我们提出了一种方法，在文本和图像特征之间增加了理解和关联性，从而提高了对问题的回答准确性。

Aug, 2023

分离与定位：重新思考文本的文本视觉问答

TextVQA 问题解答中，我们提出了一种名为 Separate and Locate (SaL) 的新方法，该方法通过探索文本的上下文线索和设计空间位置嵌入来构建 OCR 文本之间的空间关系，从而在 TextVQA 和 ST-VQA 数据集上获得了较好的准确性改进，并且无需任何预训练任务。

Aug, 2023

基于 OCR 模态扰动的场景文本视觉问答对抗训练

本研究提出了一种多模态的对抗训练架构，其中引入了对抗性 OCR 增强（AOE）模块和空间感知自注意力（SASA）机制，旨在改善场景文本视觉问答的性能，并为多模态对抗训练提供了新的方法。

Mar, 2024

大型语言模型为文本丰富的 VQA 带来的优势

基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈，并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息，为训练保留 LLM 能力提供了启示。

Nov, 2023

面向能够阅读的 VQA 模型

我们研究了盲人用户在看不到图片的情况下经常关注的图像内容，即图片中的文本，并介绍了一种名为 LoRRA 的新模型用于解决这个问题，同时提出了一个名为 TextVQA 的数据集来评估和改进模型表现。

Apr, 2019

ICDAR 2019 场景文本视觉问答竞赛

本文介绍了 ICDAR 2019 场景文本视觉问答比赛 (ST-VQA) 的最终结果和新数据集，包括 23038 张图像和 31791 个文本实例答案，涵盖广泛的情景。该竞赛共有 3 个递增的任务，需要理解场景中的文本并回答问题。提出了一种新的评估度量标准，旨在评估文本识别和图像理解两种关键能力。结果分析提供了 VQA 系统当前的能力洞见。此数据集标志着使用场景文本实现全面图像理解的更强大、更通用的模型的重要里程碑。

Jun, 2019

视觉语言问答 (VLQA) 挑战赛

新方法和基础性性能的比较与现有机器学习方法中挑战的问题进行了讨论，最终提出了 Visuo-Linguistic Question Answering 作为计算机视觉和自然语言处理的基准测试集。

May, 2020