未来图表：利用图表问答进行大规模评估基于LLM的数据可视化

Sep, 2024

未来图表：利用图表问答进行大规模评估基于LLM的数据可视化

Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations

James Ford, Xingmeng Zhao, Dan Schumacher, Anthony Rios

TL;DR本文提出了一种新框架，通过视觉问答模型自动评估LLM生成的数据可视化，解决了传统评估方法依赖人工判断且成本高、不可扩展的问题。研究表明，尽管微调提示显著提升图表生成的准确性，但LLM生成的图表仍不及人类生成的图表精确，这强调了加速该领域研究的重要性。

Abstract

We propose a novel framework that leverages Visual Question Answering (VQA) models to automate the evaluation of LLM-generated data visualizations. Traditional evaluation methods often rely on human judgment, which is costly and unscalable, or focus solely on data accuracy, neglecting

发现论文，激发创造

DVQA: 通过问答理解数据可视化

DVQA 数据集是一个检测条形图理解能力的问答框架，与 VQA 相比，我们的方法可以处理特定条形图中独特的问题和答案，研究提出了两个高效的基线模型，其能够从科学出版物、互联网文章、商业报告等多种领域中自动提取数值和语义信息，这项工作将使算法能够自动从大量的条形图中提取信息。

Jan, 2018

ChartQA:针对图表的问题回答的视觉和逻辑推理基准

本文提出了一个大规模基准测试，包括9.6K个人为编写的问题和23.1K个由人类编写的图表摘要生成的问题，并运用两种基于Transformer的模型来回答问题，这些模型将图表的视觉特征和数据表统一起来处理来解决目标检测中的视觉和逻辑推理等问题。

Mar, 2022

RealCQA: 科学图表问答作为一阶逻辑的测试平台

我们在真实世界的图表中对图表视觉问答任务进行了全面的研究，提出了一种基于模板的图表问题创建的新型分类法，并引入了一个包含新答案类型的数据集，从而为模型的一阶逻辑能力评估提供了一个标准，该研究通过对真实世界超出分布的数据集的实验结果，对大规模预训练模型进行了稳健评估，并推进了图表视觉问答和神经网络的形式逻辑验证领域。

Aug, 2023

逐步合成：用于基于推理的图表VQA的工具、模板和LLMs作为数据生成器

通过数据增强和大型语言模型，提升图表问答模型的推理能力，将复杂问题分解为多个逐步推理子问题，并通过外部工具生成最终答案。使用合成数据进行训练，显著提高图表问答模型的准确性，达到了图表问答数据集的最高准确率。

Mar, 2024

大型视觉语言模型对图表理解和推理的挑战：LVLM的能力与限制的广泛调查

本研究通过对大型视觉语言模型（LVLMs）的全面评估，揭示了它们在图表理解和推理任务中的优势和局限性，并提供了未来研究的启示。

Jun, 2024

LinkQ: 一个辅助LLM的可视化界面用于知识图谱问答

LinkQ是一个通过自然语言问答来简化知识图谱查询构建的系统，它利用了大型语言模型来构建查询，使用户能够轻松地从知识图谱数据中获取有价值的信息，并通过迭代将开放性问题转化为精确问题，从而进行探索性和确认性数据分析。

Jun, 2024

通过有效的预训练任务提升图表问答能力

为了解决现有视觉问答模型在图表问题上的不足，本研究通过行为分析，提出了三个简单的预训练任务以改进现有模型的结构-视觉知识和对数字问题的理解，将预训练模型（MatCha-v2）应用在三个图表数据集上，相比基准模型，性能平均提升了1.7%。

Jun, 2024

CharXiv：多模式LLM模型中现实图表理解的不足之处的概览

多模态大语言模型（MLLMs）在实际任务（如分析科学论文或财务报告）中应用图标理解起着重要作用。然而，现有数据集通常只关注模板化问题的简化和同质化图表，导致对进展的过于乐观的衡量。我们在这项工作中提出了CharXiv，这是一个综合评估套件，包括来自arXiv论文的2,323个自然、具有挑战性和多样化的图表。CharXiv包括两种类型的问题：1）描述性问题，涉及基本图表元素的检查；2）推理问题，需要综合图表中复杂的视觉元素的信息。我们的结果显示了最强专有模型（GPT-4o）的推理能力（47.1%准确率）与最强开源模型（InternVL Chat V1.5）（29.2%准确率）之间存在一个被低估的差距。所有模型远远落后于80.5%的人类表现，凸显了现有MLLMs在图表理解能力方面的不足。我们希望CharXiv通过提供更加真实和忠实的进展衡量，促进未来的MLLM图表理解研究。

Jun, 2024

揭示真相：LLM真的懂图表吗？对一致性和健壮性的深入研究

图表问答是视觉语言理解的关键领域。本文评估了最先进的视觉语言模型在专门为本研究开发的全面数据集上的鲁棒性和一致性，包括多样化的问题类别和图表格式。我们研究了两个关键方面：1）模型处理不同级别的图表和问题复杂性的能力，2）模型在相同底层数据的不同视觉表示之间的鲁棒性。我们的分析揭示了基于问题和图表类型的显著性能差异，突显了当前模型的优势和劣势。此外，我们还确定了改进的方向，并提出了未来构建更强大可靠的图表问答系统的研究方向。本研究揭示了当前模型的局限性，并为未来领域的进步铺平了道路。

Jul, 2024

EvoChart：面向真实世界图表理解的基准和自我训练方法

本研究解决了当前在图表理解领域缺乏高质量训练数据和全面评估基准的问题。通过提出EvoChart自我训练方法，生成合成图表数据以提高视觉语言模型在真实世界图表理解的能力，并建立了包含650个真实图表和1250个问题的EvoChart-QA基准。实验结果表明，EvoChart显著提升了开源视觉语言模型在图表理解任务中的性能。

Sep, 2024