通过有效的预训练任务提升图表问答能力

Jun, 2024

通过有效的预训练任务提升图表问答能力

Enhancing Question Answering on Charts Through Effective Pre-training Tasks

Ashim Gupta, Vivek Gupta, Shuo Zhang, Yujie He, Ning Zhang...

TL;DR为了解决现有视觉问答模型在图表问题上的不足，本研究通过行为分析，提出了三个简单的预训练任务以改进现有模型的结构 - 视觉知识和对数字问题的理解，将预训练模型（MatCha-v2）应用在三个图表数据集上，相比基准模型，性能平均提升了 1.7%。

Abstract

To completely understand a document, the use of textual information is not enough. Understanding visual cues, such as layouts and charts, is also required. While the current state-of-the-art approaches for document understanding (both OCR-based and OCR-free) work well, a thorough analy

document understanding visual cues limitations behavioral analysis pre-training tasks

发现论文，激发创造

OpenCQA：利用图表进行开放式问答

此研究介绍了一种名为 OpenCQA 的新任务，即使用描述性文本回答有关图表的开放式问题，并展示了数据集的注释过程和深入分析。研究一共实现和评估了三种模型，并发现效果最优的模型能够生成流畅一致的文本，但仍然存在逻辑和算术方面的问题。

Oct, 2022

MatCha：利用数学推理和图表解渲染增强视觉语言预训练

MatCha 通过数学推理与图解构造预训练，增强了视觉语言模型的建模能力，成功提高了如 PlotQA 和 ChartQA 等标准基准测试的表现，证实了该方法在更广泛的视觉语言任务上的有效性和可行性。

Dec, 2022

mChartQA：基於視覺語言對齊和推理的跨模態圖表問答通用基準

该论文介绍了一种新颖的多模态图表问答模型，专门设计用于处理复杂的多模态任务，通过融合视觉和语言处理，克服了传统方法的局限性，采用双阶段训练方法，在处理色彩、结构和无文字图表问题方面表现出优异性能。

Apr, 2024

通过跨模态图表对模型进行预训练提升视觉和语言任务中的图表理解能力

介绍了一种名为 ChartT5 的 V+L 模型，通过对绘图表格对进行跨模态预训练学习，具备了解释图表信息的能力，其采用的两种新颖预训练目标 Masked Header Prediction (MHP) 和 Masked Value Prediction (MVP) 有效提高了模型的表格信息解释能力，在答题和总结图表方面的表现都超过了同类方法 8% 以上。

May, 2023

ChartQA: 针对图表的问题回答的视觉和逻辑推理基准

本文提出了一个大规模基准测试，包括 9.6K 个人为编写的问题和 23.1K 个由人类编写的图表摘要生成的问题，并运用两种基于 Transformer 的模型来回答问题，这些模型将图表的视觉特征和数据表统一起来处理来解决目标检测中的视觉和逻辑推理等问题。

Mar, 2022

面向复杂推理与常识理解的文档级图表问答

在这项工作中，我们介绍了一项名为文档层次的图表问答 (DCQA) 的新任务，旨在通过文档布局分析 (DLA) 首先提取文档中的图表或绘图，然后进行图表问答 (CQA)，并开发了强大的问题 - 答案生成引擎，实现了视觉文档中图表的复杂推理和常识问题的 OCR-free 理解。

Oct, 2023

RealCQA: 科学图表问答作为一阶逻辑的测试平台

我们在真实世界的图表中对图表视觉问答任务进行了全面的研究，提出了一种基于模板的图表问题创建的新型分类法，并引入了一个包含新答案类型的数据集，从而为模型的一阶逻辑能力评估提供了一个标准，该研究通过对真实世界超出分布的数据集的实验结果，对大规模预训练模型进行了稳健评估，并推进了图表视觉问答和神经网络的形式逻辑验证领域。

Aug, 2023

图表问答：现状和未来方向

本篇综述论文旨在系统回顾当前关于数据可视化分析中图表问题回答（Chart Question Answering，CQA）系统的最新研究进展。论文采用分类法，从任务输入输出和解决方案等多个角度进行了整理和讨论，并总结了相关试验评估技术，同时还指出了与 CQA 相关的挑战和未来研究机遇。

May, 2022

DVQA: 通过问答理解数据可视化

DVQA 数据集是一个检测条形图理解能力的问答框架，与 VQA 相比，我们的方法可以处理特定条形图中独特的问题和答案，研究提出了两个高效的基线模型，其能够从科学出版物、互联网文章、商业报告等多种领域中自动提取数值和语义信息，这项工作将使算法能够自动从大量的条形图中提取信息。

Jan, 2018

图表理解的分类回归

本文针对图表理解任务的挑战，提出了一种新型的图表问答模型。我们提出的联合分类与回归模型使用了共现注意力变换器，在处理文本语言和视觉元素的复杂互动时表现出色。在经过广泛的实验验证后，我们的模型在真实场景下的 PlotQA 数据集上表现出卓越的性能，也在 FigureQA 数据集上表现出竞争性的结果。此外，我们的模型特别适用于需要回归的非词汇库答案的实际问题。

Nov, 2021