RUArt：一种新的以文本为中心的文本视觉问答解决方案

Oct, 2020

RUArt：一种新的以文本为中心的文本视觉问答解决方案

RUArt: A Novel Text-Centered Solution for Text-Based Visual Question Answering

Zan-Xia Jin, Heran Wu, Chun Yang, Fang Zhou, Jingyan Qin...

TL;DR本文提出了一种新的基于文本的VQA方法RUArt，它可以通过读取并理解图像中的文本、场景对象以及与之间的关系来回答给定问题，实验结果表明，该方法可以有效地探索文本的语境信息和挖掘文本与物体之间的稳定关系。

Abstract

text-based visual question answering (VQA) requires to read and understand text in an image to correctly answer a given question. However, most current methods simply add optical character recognition (OCR) tokens extracted from the image into the VQA model without considering

发现论文，激发创造

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

视觉问答最近进展综述

该论文综述了不同方法来解决视觉问答的问题，特别是描述了各种算法提取图像特征和文本特征的方法，并讨论了评估VQA模型的实验，并报告了它们在各种数据集上的表现。

Sep, 2017

场景文本视觉问答

本文介绍了一个新数据集，即ST-VQA，旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务，需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷，同时提出一系列基线方法。

May, 2019

面向TextVQA的结构化多模态关注力

本文提出了一种端到端的结构化多模态关注神经网络，通过使用图形表示和多模态图形注意网络设计来处理TextVQA中的可视文本问答问题，并通过全局-本地注意回答模块生成答案，其中使用了OCR和通用词汇识别技术。实验证明该模型在TextVQA数据集和ST-VQA数据集等两个任务中超过了SoTA模型。

Jun, 2020

本地化、分组和选择：通过场景文本建模提升文本-VQA

本文提出了一种名为 Localize, Group, and Select (LOGOS) 的模型，它利用场景文本聚类和光学字符识别（OCR）技术来更好地定位图像的关键信息、实现跨模态理解，并从不同来源的OCR文本中选择最佳答案，成功解决了多模态上下文理解中的 Text-VQA 问题，实验表明，该模型在两个 Text-VQA 基准测试上表现优于其他方法。

Aug, 2021

面向文本的双路由网络用于视觉问答

提出了一种名为TDR的基于文本感知的双路由神经网络，在视觉问题回答方面取得了优异表现，特别是在与数字相关的问题上。

Nov, 2022

提升文本-视觉问答中的文本表达

通过结合TextVQA和VQA数据集，我们提出了一种方法，在文本和图像特征之间增加了理解和关联性，从而提高了对问题的回答准确性。

Aug, 2023

分离与定位：重新思考文本的文本视觉问答

TextVQA问题解答中，我们提出了一种名为Separate and Locate (SaL)的新方法，该方法通过探索文本的上下文线索和设计空间位置嵌入来构建OCR文本之间的空间关系，从而在TextVQA和ST-VQA数据集上获得了较好的准确性改进，并且无需任何预训练任务。

Aug, 2023

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023