ChartQA: 针对图表的问题回答的视觉和逻辑推理基准

ACLMar, 2022

ChartQA: 针对图表的问题回答的视觉和逻辑推理基准

ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning

Ahmed Masry, Do Xuan Long, Jia Qing Tan, Shafiq Joty, Enamul Hoque

TL;DR本文提出了一个大规模基准测试，包括 9.6K 个人为编写的问题和 23.1K 个由人类编写的图表摘要生成的问题，并运用两种基于 Transformer 的模型来回答问题，这些模型将图表的视觉特征和数据表统一起来处理来解决目标检测中的视觉和逻辑推理等问题。

Abstract

charts are very popular for analyzing data. When exploring charts, people often ask a variety of complex reasoning questions that involve

charts complex reasoning visual features benchmark transformer-based models

发现论文，激发创造

OpenCQA：利用图表进行开放式问答

此研究介绍了一种名为 OpenCQA 的新任务，即使用描述性文本回答有关图表的开放式问题，并展示了数据集的注释过程和深入分析。研究一共实现和评估了三种模型，并发现效果最优的模型能够生成流畅一致的文本，但仍然存在逻辑和算术方面的问题。

Oct, 2022

RealCQA: 科学图表问答作为一阶逻辑的测试平台

我们在真实世界的图表中对图表视觉问答任务进行了全面的研究，提出了一种基于模板的图表问题创建的新型分类法，并引入了一个包含新答案类型的数据集，从而为模型的一阶逻辑能力评估提供了一个标准，该研究通过对真实世界超出分布的数据集的实验结果，对大规模预训练模型进行了稳健评估，并推进了图表视觉问答和神经网络的形式逻辑验证领域。

Aug, 2023

面向复杂推理与常识理解的文档级图表问答

在这项工作中，我们介绍了一项名为文档层次的图表问答 (DCQA) 的新任务，旨在通过文档布局分析 (DLA) 首先提取文档中的图表或绘图，然后进行图表问答 (CQA)，并开发了强大的问题 - 答案生成引擎，实现了视觉文档中图表的复杂推理和常识问题的 OCR-free 理解。

Oct, 2023

图表问答：现状和未来方向

本篇综述论文旨在系统回顾当前关于数据可视化分析中图表问题回答（Chart Question Answering，CQA）系统的最新研究进展。论文采用分类法，从任务输入输出和解决方案等多个角度进行了整理和讨论，并总结了相关试验评估技术，同时还指出了与 CQA 相关的挑战和未来研究机遇。

May, 2022

ChartBench：图表中的复杂可视推理基准

通过更复杂的视觉逻辑和引入 ChartBench 基准，准确衡量 MLLMs 在图表数据中的基本理解能力和数据可靠性，并揭示了它们的局限性，以激发研究界对 MLLMs 的图表理解能力更加关注。

Dec, 2023

mChartQA：基於視覺語言對齊和推理的跨模態圖表問答通用基準

该论文介绍了一种新颖的多模态图表问答模型，专门设计用于处理复杂的多模态任务，通过融合视觉和语言处理，克服了传统方法的局限性，采用双阶段训练方法，在处理色彩、结构和无文字图表问题方面表现出优异性能。

Apr, 2024

通过有效的预训练任务提升图表问答能力

为了解决现有视觉问答模型在图表问题上的不足，本研究通过行为分析，提出了三个简单的预训练任务以改进现有模型的结构 - 视觉知识和对数字问题的理解，将预训练模型（MatCha-v2）应用在三个图表数据集上，相比基准模型，性能平均提升了 1.7%。

Jun, 2024

FigureQA：一份为视觉推理而注释的图像数据集

FigureQA 是一个视觉推理语料库，包含超过一百万个基于 100,000 张图像的问题 - 答案对。图像来自五个类别的合成科学式图形：线图、点线图、垂直和水平条形图以及饼状图。通过从 15 个模板中生成问题并提供用于训练机器学习模型的附属数据，FigureQA 为开发可以直观地识别数据可视化中的模式的模型迈出了第一步。

Oct, 2017

逐步合成：用于基于推理的图表 VQA 的工具、模板和 LLMs 作为数据生成器

通过数据增强和大型语言模型，提升图表问答模型的推理能力，将复杂问题分解为多个逐步推理子问题，并通过外部工具生成最终答案。使用合成数据进行训练，显著提高图表问答模型的准确性，达到了图表问答数据集的最高准确率。

Mar, 2024

FlowVQA：将流程图用于视觉问答中的多模态逻辑映射

FlowVQA 是一个新颖的基准测试，旨在评估多模态语言模型在使用流程图作为视觉上下文进行推理的能力，其组成包括来自三个不同内容来源的 2,272 张经过精心生成和人工验证的流程图像以及 22,413 个多样化的问答对，以测试一系列推理任务，包括信息定位、决策和逻辑推进。在开源和专有的多模态语言模型上进行了彻底的基准评估，使用了各种策略，并对方向性偏差进行了分析。结果强调了这个基准测试作为推进多模态建模领域的重要工具的潜力，为提高模型在视觉和逻辑推理任务中的性能提供了一个专注和具有挑战性的环境。

Jun, 2024