分离与定位：重新思考文本的文本视觉问答

Aug, 2023

分离与定位：重新思考文本的文本视觉问答

Separate and Locate: Rethink the Text in Text-based Visual Question Answering

Chengyang Fang, Jiangnan Li, Liang Li, Can Ma, Dayong Hu

TL;DRTextVQA问题解答中，我们提出了一种名为Separate and Locate (SaL)的新方法，该方法通过探索文本的上下文线索和设计空间位置嵌入来构建OCR文本之间的空间关系，从而在TextVQA和ST-VQA数据集上获得了较好的准确性改进，并且无需任何预训练任务。

Abstract

Text-based Visual Question Answering (textvqa) aims at answering questions about the text in images. Most works in this field focus on designing network structures or →

发现论文，激发创造

场景文本视觉问答

本文介绍了一个新数据集，即ST-VQA，旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务，需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷，同时提出一系列基线方法。

May, 2019

通过参考生成的段落标题来提高视觉问答能力

提出了一种视觉和文本问题回答（VTQA）模型，该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题，并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在Visual Genome数据集上进行训练，显著提高了现有模型的性能。

Jun, 2019

面向TextVQA的结构化多模态关注力

本文提出了一种端到端的结构化多模态关注神经网络，通过使用图形表示和多模态图形注意网络设计来处理TextVQA中的可视文本问答问题，并通过全局-本地注意回答模块生成答案，其中使用了OCR和通用词汇识别技术。实验证明该模型在TextVQA数据集和ST-VQA数据集等两个任务中超过了SoTA模型。

Jun, 2020

面向文本视觉问答的定位感知答案预测

本文提出了一种基于局部信息的答案预测网络，即LaAP-Net，用于解决现有基于光学字符识别（OCR）或固定词汇的文本VQA系统中的局限性，其中定位信息得到了更好的利用。此外，提出了一种多模式融合技术，即COR，为定位任务提供了额外的上下文信息。LaAP-Net在三个基准数据集上的表现比现有方法都要好。

Oct, 2020

RUArt：一种新的以文本为中心的文本视觉问答解决方案

本文提出了一种新的基于文本的VQA方法RUArt，它可以通过读取并理解图像中的文本、场景对象以及与之间的关系来回答给定问题，实验结果表明，该方法可以有效地探索文本的语境信息和挖掘文本与物体之间的稳定关系。

Oct, 2020

简单并不容易：文本VQA和TextCaps的简单强基准

本篇论文提出了一种简单的关注机制，通过将OCR令牌特征分别发送到可视化和语言关注分支，并将它们发送到流行的Transformer解码器以生成答案或标题，从而在TextVQA和ST-VQA等多个基准测试上取得最新的最佳表现，并且在文本图像字幕方面超过了TextCaps挑战2020的获胜者

Dec, 2020

本地化、分组和选择：通过场景文本建模提升文本-VQA

本文提出了一种名为 Localize, Group, and Select (LOGOS) 的模型，它利用场景文本聚类和光学字符识别（OCR）技术来更好地定位图像的关键信息、实现跨模态理解，并从不同来源的OCR文本中选择最佳答案，成功解决了多模态上下文理解中的 Text-VQA 问题，实验表明，该模型在两个 Text-VQA 基准测试上表现优于其他方法。

Aug, 2021

定位再生成: 通过边界框桥接视觉和语言进行场景文本VQA

提出了一个用于场景文本视觉问答的多模态框架，采用“先定位再生成”的范式，将空间边界框作为连接文本和视觉模态的桥梁，通过预先训练的语言模型增强绝对准确率。

Apr, 2023

提升文本-视觉问答中的文本表达

通过结合TextVQA和VQA数据集，我们提出了一种方法，在文本和图像特征之间增加了理解和关联性，从而提高了对问题的回答准确性。

Aug, 2023

ViTextVQA：用于评估图像中越南文本理解的大规模视觉问答数据集

通过对OCR文本中令牌的处理和选择顺序的细致实验，我们发现这一发现显著提高了在ViTextVQA数据集上基准模型的性能。

Apr, 2024