通过跨模态图表对模型进行预训练提升视觉和语言任务中的图表理解能力

ACLMay, 2023

通过跨模态图表对模型进行预训练提升视觉和语言任务中的图表理解能力

Enhanced Chart Understanding in Vision and Language Task via Cross-modal Pre-training on Plot Table Pairs

Mingyang Zhou, Yi R. Fung, Long Chen, Christopher Thomas, Heng Ji...

TL;DR介绍了一种名为 ChartT5 的 V+L 模型，通过对绘图表格对进行跨模态预训练学习，具备了解释图表信息的能力，其采用的两种新颖预训练目标 Masked Header Prediction (MHP) 和 Masked Value Prediction (MVP) 有效提高了模型的表格信息解释能力，在答题和总结图表方面的表现都超过了同类方法 8% 以上。

Abstract

Building cross-model intelligence that can understand charts and communicate the salient information hidden behind them is an appealing challenge in the vision and language(V+L) community. The capability to uncover the underlined table data of chart figures is a critical key to automat

cross-model intelligence chart understanding v+l model pre-training strategies chartt5

发现论文，激发创造

通过有效的预训练任务提升图表问答能力

为了解决现有视觉问答模型在图表问题上的不足，本研究通过行为分析，提出了三个简单的预训练任务以改进现有模型的结构 - 视觉知识和对数字问题的理解，将预训练模型（MatCha-v2）应用在三个图表数据集上，相比基准模型，性能平均提升了 1.7%。

Jun, 2024

ChartAssisstant：通过图表 - 表格预训练和多任务指导调优的通用图表多模态语言模型

通过 ChartAssistant 这一基于图表的视觉语言模型，本研究提出了一种解决图表理解的通用模型，经实验证明在各种图表任务上取得了显著性能提升。

Jan, 2024

mChartQA：基於視覺語言對齊和推理的跨模態圖表問答通用基準

该论文介绍了一种新颖的多模态图表问答模型，专门设计用于处理复杂的多模态任务，通过融合视觉和语言处理，克服了传统方法的局限性，采用双阶段训练方法，在处理色彩、结构和无文字图表问题方面表现出优异性能。

Apr, 2024

AltChart: 多预训练任务提升基于 VLM 的图表摘要

图表概括对于盲人和视障人士来说是一项至关重要的任务，因为它是他们获取和解释图形数据的主要手段。本研究提出了三个关键贡献：引入了 AltChart 数据集，提出了一个新的预训练视觉语言模型的方法，以及对四种主流图表概括模型进行了全面评估。

May, 2024

MatCha：利用数学推理和图表解渲染增强视觉语言预训练

MatCha 通过数学推理与图解构造预训练，增强了视觉语言模型的建模能力，成功提高了如 PlotQA 和 ChartQA 等标准基准测试的表现，证实了该方法在更广泛的视觉语言任务上的有效性和可行性。

Dec, 2022

基于图表的推理：从 LLMs 向 VLMs 的能力转移

在 VLMs 中，我们提出了一种从 LLMs 转移能力的技术，通过改善图表表示和构建比原始训练集大 20 倍的数据集，合成图表的推理痕迹，最后使用多任务损失对模型进行微调，取得了令人满意的性能。

Mar, 2024

ChartX 和 ChartVLM：一种复杂图表推理的通用基准和基础模型

我们构建了一个多模态评估集 ChartX，包括 18 种图表类型、7 种图表任务、22 个学科领域和高质量的图表数据，然后开发了一个新的视角来处理依赖可解释模式的多模态任务，即 ChartVLM。我们在 ChartX 评估集上评估了主流多模态大模型和我们的 ChartVLM，实验证明 ChartVLM 在图表相关能力上超越了通用的和与图表相关的大模型，达到了与 GPT-4V 可比较的结果。我们相信我们的研究可以为在创建更全面的图表评估集和开发更可解释的多模态模型方面的进一步探索铺平道路。

Feb, 2024

UniChart: 一个通用的视觉语言预训练模型，用于图表理解和推理

本研究提出了针对图表的强化学习模型 UniChart，使用预训练技术结合低 - 高层次任务训练，使得在图表问答和图表总结等下游任务上都具有最先进的表现。

May, 2023

ChartLlama: 图表理解和生成的多模态 LLM

通过创建高质量的指令调整数据集，并使用这个数据集训练多模态大型语言模型 ChartLlama，本研究提出的数据生成方法可以有效地提高图表理解能力，并在 ChartQA、图表转文本和图表提取等评估中明显超越以往的方法，证实了其巨大潜力。

Nov, 2023

MMC：用大规模指导调优推进多模态图表理解

利用大型语言模型和多模态模型的整合，在用户定向视觉语言任务的零样本完成方面取得了令人瞩目的进展。我们引入了一个大规模的多模态图表指导（MMC-Instruction）数据集，包含 600k 个实例，支持多样化的任务和图表类型。基于这些数据，我们开发了一个多模态图表助手（MMCA），它在现有的图表问答基准上实现了最先进的性能。为了全面评估多模态理解图表的能力，我们还提出了一个多模态图表基准（MMC-Benchmark），这是一个包含 9 个不同任务的全面人工标注基准，评估对图表的推理能力。对 MMC-Benchmark 的大量实验揭示了现有的语言模型在正确解释图表方面的局限性，即使是最新的 GPT-4V 模型也是如此。我们的工作提供了一种指导方法和基准，以促进图表的多模态理解。

Nov, 2023