未来图表:利用图表问答进行大规模评估基于LLM的数据可视化
DVQA 数据集是一个检测条形图理解能力的问答框架,与 VQA 相比,我们的方法可以处理特定条形图中独特的问题和答案,研究提出了两个高效的基线模型,其能够从科学出版物、互联网文章、商业报告等多种领域中自动提取数值和语义信息,这项工作将使算法能够自动从大量的条形图中提取信息。
Jan, 2018
本文提出了一个大规模基准测试,包括9.6K个人为编写的问题和23.1K个由人类编写的图表摘要生成的问题,并运用两种基于Transformer的模型来回答问题,这些模型将图表的视觉特征和数据表统一起来处理来解决目标检测中的视觉和逻辑推理等问题。
Mar, 2022
我们在真实世界的图表中对图表视觉问答任务进行了全面的研究,提出了一种基于模板的图表问题创建的新型分类法,并引入了一个包含新答案类型的数据集,从而为模型的一阶逻辑能力评估提供了一个标准,该研究通过对真实世界超出分布的数据集的实验结果,对大规模预训练模型进行了稳健评估,并推进了图表视觉问答和神经网络的形式逻辑验证领域。
Aug, 2023
通过数据增强和大型语言模型,提升图表问答模型的推理能力,将复杂问题分解为多个逐步推理子问题,并通过外部工具生成最终答案。使用合成数据进行训练,显著提高图表问答模型的准确性,达到了图表问答数据集的最高准确率。
Mar, 2024
本研究通过对大型视觉语言模型(LVLMs)的全面评估,揭示了它们在图表理解和推理任务中的优势和局限性,并提供了未来研究的启示。
Jun, 2024
LinkQ是一个通过自然语言问答来简化知识图谱查询构建的系统,它利用了大型语言模型来构建查询,使用户能够轻松地从知识图谱数据中获取有价值的信息,并通过迭代将开放性问题转化为精确问题,从而进行探索性和确认性数据分析。
Jun, 2024
为了解决现有视觉问答模型在图表问题上的不足,本研究通过行为分析,提出了三个简单的预训练任务以改进现有模型的结构-视觉知识和对数字问题的理解,将预训练模型(MatCha-v2)应用在三个图表数据集上,相比基准模型,性能平均提升了1.7%。
Jun, 2024
多模态大语言模型(MLLMs)在实际任务(如分析科学论文或财务报告)中应用图标理解起着重要作用。然而,现有数据集通常只关注模板化问题的简化和同质化图表,导致对进展的过于乐观的衡量。我们在这项工作中提出了CharXiv,这是一个综合评估套件,包括来自arXiv论文的2,323个自然、具有挑战性和多样化的图表。CharXiv包括两种类型的问题:1)描述性问题,涉及基本图表元素的检查;2)推理问题,需要综合图表中复杂的视觉元素的信息。我们的结果显示了最强专有模型(GPT-4o)的推理能力(47.1%准确率)与最强开源模型(InternVL Chat V1.5)(29.2%准确率)之间存在一个被低估的差距。所有模型远远落后于80.5%的人类表现,凸显了现有MLLMs在图表理解能力方面的不足。我们希望CharXiv通过提供更加真实和忠实的进展衡量,促进未来的MLLM图表理解研究。
Jun, 2024
图表问答是视觉语言理解的关键领域。本文评估了最先进的视觉语言模型在专门为本研究开发的全面数据集上的鲁棒性和一致性,包括多样化的问题类别和图表格式。我们研究了两个关键方面:1)模型处理不同级别的图表和问题复杂性的能力,2)模型在相同底层数据的不同视觉表示之间的鲁棒性。我们的分析揭示了基于问题和图表类型的显著性能差异,突显了当前模型的优势和劣势。此外,我们还确定了改进的方向,并提出了未来构建更强大可靠的图表问答系统的研究方向。本研究揭示了当前模型的局限性,并为未来领域的进步铺平了道路。
Jul, 2024
本研究解决了当前在图表理解领域缺乏高质量训练数据和全面评估基准的问题。通过提出EvoChart自我训练方法,生成合成图表数据以提高视觉语言模型在真实世界图表理解的能力,并建立了包含650个真实图表和1250个问题的EvoChart-QA基准。实验结果表明,EvoChart显著提升了开源视觉语言模型在图表理解任务中的性能。
Sep, 2024