ChartGemma：野外图表推理的视觉指导优化

Jul, 2024

ChartGemma：野外图表推理的视觉指导优化

ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild

Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque...

TL;DR通过直接从图表图像中生成的指导调优数据对ChartGemma模型进行训练，捕捉到高级趋势和低级视觉信息，实现了在图表摘要、问题回答和事实核查等领域的最新结果，并通过对现实世界图表的精心定性研究表明，ChartGemma生成的摘要更加逼真和事实正确。

Abstract

Given the ubiquity of charts as a data analysis, visualization, and decision-making tool across industries and sciences, there has been a

发现论文，激发创造

ChartReader: 无启发式规则的图表解除渲染和理解的统一框架

ChartReader是一个统一的框架，它无缝地集成了图表derendering和理解任务。它使用基于转换器的图表组件检测模块和扩展的预训练视觉语言模型进行学习，该方法通过从注释数据集中自动学习图表规则来消除手动规则制定的需求，同时提高准确性。它在图表到表格、ChartQA和图表到文本任务上进行评估，证明其优于现有方法。

Apr, 2023

UniChart: 一个通用的视觉语言预训练模型，用于图表理解和推理

本研究提出了针对图表的强化学习模型 UniChart，使用预训练技术结合低-高层次任务训练，使得在图表问答和图表总结等下游任务上都具有最先进的表现。

May, 2023

结构图：视觉图表理解的感知、结构化和推理

通过提出统一且高效标签的学习范式，我们在不同的下游任务中建立了一个联合感知和推理任务的框架，并通过改进图表信息处理和结构化信息提取，实现了更好的图表理解。

Sep, 2023

ChartBench：图表中的复杂可视推理基准

通过更复杂的视觉逻辑和引入 ChartBench 基准，准确衡量 MLLMs 在图表数据中的基本理解能力和数据可靠性，并揭示了它们的局限性，以激发研究界对 MLLMs 的图表理解能力更加关注。

Dec, 2023

ChartAssisstant：通过图表-表格预训练和多任务指导调优的通用图表多模态语言模型

通过ChartAssistant这一基于图表的视觉语言模型，本研究提出了一种解决图表理解的通用模型，经实验证明在各种图表任务上取得了显著性能提升。

Jan, 2024

ChartX和ChartVLM：一种复杂图表推理的通用基准和基础模型

我们构建了一个多模态评估集ChartX，包括18种图表类型、7种图表任务、22个学科领域和高质量的图表数据，然后开发了一个新的视角来处理依赖可解释模式的多模态任务，即ChartVLM。我们在ChartX评估集上评估了主流多模态大模型和我们的ChartVLM，实验证明ChartVLM在图表相关能力上超越了通用的和与图表相关的大模型，达到了与GPT-4V可比较的结果。我们相信我们的研究可以为在创建更全面的图表评估集和开发更可解释的多模态模型方面的进一步探索铺平道路。

Feb, 2024

ChartInstruct: 图表理解和推理的指导调优

通过引入ChartInstruct数据集和两种不同的系统，我们展示了一种针对图表相关任务的指令调节方法，提供了广泛适用性和高效性。

Mar, 2024

从像素到洞见：大型基础模型时代的自动图表理解综述

数据可视化是数据分析中至关重要的一环，自然语言处理中的大型基础模型在图表理解任务中发挥了重要作用。本综述论文全面概述了在大型基础模型背景下图表理解的最新发展、挑战和未来方向，包括问题界定、任务和数据集、建模策略以及性能改进等内容。

Mar, 2024

大型视觉语言模型对图表理解和推理的挑战：LVLM的能力与限制的广泛调查

本研究通过对大型视觉语言模型（LVLMs）的全面评估，揭示了它们在图表理解和推理任务中的优势和局限性，并提供了未来研究的启示。

Jun, 2024

EvoChart：面向真实世界图表理解的基准和自我训练方法

本研究解决了当前在图表理解领域缺乏高质量训练数据和全面评估基准的问题。通过提出EvoChart自我训练方法，生成合成图表数据以提高视觉语言模型在真实世界图表理解的能力，并建立了包含650个真实图表和1250个问题的EvoChart-QA基准。实验结果表明，EvoChart显著提升了开源视觉语言模型在图表理解任务中的性能。

Sep, 2024