ChartBench:图表中的复杂可视推理基准
我们构建了一个多模态评估集 ChartX,包括 18 种图表类型、7 种图表任务、22 个学科领域和高质量的图表数据,然后开发了一个新的视角来处理依赖可解释模式的多模态任务,即 ChartVLM。我们在 ChartX 评估集上评估了主流多模态大模型和我们的 ChartVLM,实验证明 ChartVLM 在图表相关能力上超越了通用的和与图表相关的大模型,达到了与 GPT-4V 可比较的结果。我们相信我们的研究可以为在创建更全面的图表评估集和开发更可解释的多模态模型方面的进一步探索铺平道路。
Feb, 2024
本文提出了一个大规模基准测试,包括 9.6K 个人为编写的问题和 23.1K 个由人类编写的图表摘要生成的问题,并运用两种基于 Transformer 的模型来回答问题,这些模型将图表的视觉特征和数据表统一起来处理来解决目标检测中的视觉和逻辑推理等问题。
Mar, 2022
利用大型语言模型和多模态模型的整合,在用户定向视觉语言任务的零样本完成方面取得了令人瞩目的进展。我们引入了一个大规模的多模态图表指导(MMC-Instruction)数据集,包含 600k 个实例,支持多样化的任务和图表类型。基于这些数据,我们开发了一个多模态图表助手(MMCA),它在现有的图表问答基准上实现了最先进的性能。为了全面评估多模态理解图表的能力,我们还提出了一个多模态图表基准(MMC-Benchmark),这是一个包含 9 个不同任务的全面人工标注基准,评估对图表的推理能力。对 MMC-Benchmark 的大量实验揭示了现有的语言模型在正确解释图表方面的局限性,即使是最新的 GPT-4V 模型也是如此。我们的工作提供了一种指导方法和基准,以促进图表的多模态理解。
Nov, 2023
我们介绍了 SEED-Bench-2-Plus,这是一个专门设计用于评估 MLLMs 的文本丰富视觉理解的基准,通过涵盖现实世界中的三个广泛类别(图表、地图和网络),它们有效地模拟了复杂多样的文本丰富环境,并强调了当前 MLLMs 在文本丰富视觉理解方面的限制。
Apr, 2024
该论文介绍了一种新颖的多模态图表问答模型,专门设计用于处理复杂的多模态任务,通过融合视觉和语言处理,克服了传统方法的局限性,采用双阶段训练方法,在处理色彩、结构和无文字图表问题方面表现出优异性能。
Apr, 2024
本研究的 Chart-to-text 数据集为基础,使用图像字幕和数据转换技术探索了从图表到文本的自然语言概括方法以及相应的神经网络模型,研究结果表明此方法对复杂模式和趋势的描述存在困难。
Mar, 2022
通过引入 MathVerse 基准测试,我们深入评估多模态大型语言模型(MLLMs)在解决视觉数学问题方面的能力,并提出了链式思维(CoT)评估策略以评估输出答案的细微推理步骤,以期为 MLLMs 的未来发展提供独特的见解。
Mar, 2024
Multi 是一种多模态大型语言模型(MLLMs)的先进基准测试,提供了综合数据集,用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现,并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明,MLLMs 在 Multi 上取得了显著的进展,与其他 MLLMs 相比,GPT-4V 的准确率达到了 63.7%,Multi 不仅是一个强大的评估平台,也为专家级 AI 的发展铺平了道路。
Feb, 2024
在 VLMs 中,我们提出了一种从 LLMs 转移能力的技术,通过改善图表表示和构建比原始训练集大 20 倍的数据集,合成图表的推理痕迹,最后使用多任务损失对模型进行微调,取得了令人满意的性能。
Mar, 2024
通过创建高质量的指令调整数据集,并使用这个数据集训练多模态大型语言模型 ChartLlama,本研究提出的数据生成方法可以有效地提高图表理解能力,并在 ChartQA、图表转文本和图表提取等评估中明显超越以往的方法,证实了其巨大潜力。
Nov, 2023