大型视觉语言模型对图表理解和推理的挑战：LVLM 的能力与限制的广泛调查

Jun, 2024

大型视觉语言模型对图表理解和推理的挑战：LVLM 的能力与限制的广泛调查

Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs

PDF

Mohammed Saidul Islam, Raian Rahman, Ahmed Masry, Md Tahmid Rahman Laskar, Mir Tafseer Nayeem...

TL;DR本研究通过对大型视觉语言模型（LVLMs）的全面评估，揭示了它们在图表理解和推理任务中的优势和局限性，并提供了未来研究的启示。

Abstract

natural language is a powerful complementary modality of communication for data visualizations, such as bar and line charts. To facilitate chart-based reasoning using natural language, various downstream tasks ha

natural language chart-based reasoning vision-language models data visualization chart comprehension tasks

发现论文，激发创造

基于图表的推理：从 LLMs 向 VLMs 的能力转移

在 VLMs 中，我们提出了一种从 LLMs 转移能力的技术，通过改善图表表示和构建比原始训练集大 20 倍的数据集，合成图表的推理痕迹，最后使用多任务损失对模型进行微调，取得了令人满意的性能。

Mar, 2024

ChartX 和 ChartVLM：一种复杂图表推理的通用基准和基础模型

我们构建了一个多模态评估集 ChartX，包括 18 种图表类型、7 种图表任务、22 个学科领域和高质量的图表数据，然后开发了一个新的视角来处理依赖可解释模式的多模态任务，即 ChartVLM。我们在 ChartX 评估集上评估了主流多模态大模型和我们的 ChartVLM，实验证明 ChartVLM 在图表相关能力上超越了通用的和与图表相关的大模型，达到了与 GPT-4V 可比较的结果。我们相信我们的研究可以为在创建更全面的图表评估集和开发更可解释的多模态模型方面的进一步探索铺平道路。

Feb, 2024

多模态大型语言模型中的图推理图渲染

本文探讨了在图推理任务中将视觉信息与文本信息相结合的可行性，并使用基准测试 GITQA 以及多模态 LLM 模型进行了实验证明了在图推理任务中使用文本和视觉信息相结合要好于单一模态。

Feb, 2024

GraphLLM：提升大型语言模型的图推理能力

通过将图学习模型与大型语言模型（LLMs）有机地融合，我们介绍了 GraphLLM，一种能够使 LLMs 能够熟练解释和推理图数据的先导性端到端方法，经过多个基础图推理任务的实证评估，结果展示了平均准确率提高 54.44％以及各种图推理任务中 96.45％的显著上下文减少。

Oct, 2023

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

近期大型视觉 - 语言模型的有效性评估

大视觉语言模型在专业任务和通用任务中的效能进行综合评估，发现它们在专业任务和通用任务中均表现有限，可能的因素包括专业任务认知有限、物体幻觉、文本与图像的干扰以及在复杂问题中的鲁棒性降低。

Mar, 2024

通过大型语言模型实现自然语言数据可视化：一项探索性研究

使用大型语言模型进行自然语言到可视化的转换任务，在分析如何将结构化表格数据转化为 LLM 所需的顺序文本提示时，发现将结构化表格数据转化为程序是有效的，并且在制定提示时考虑表格模式是必要的。同时，通过对比实验发现，LLM 在 NL2Vis 任务中优于基线方法，并且推理模型在提供少量示范的情况下通过上下文学习能够进一步改善性能，时而甚至超过微调模型。最后，分析 LLM 在 NL2Vis 任务中失败的情况，并提出了循环更新的策略，通过链式思维、角色扮演和代码解释等方法来迭代更新结果，实验证实了这种迭代更新的有效性，具有广阔的未来研究潜力。

Apr, 2024

评估大型视觉语言模型在儿童数学奥林匹克竞赛上的表现

通过评估最先进的大型视觉和语言模型在儿童奥林匹克数学竞赛中的数学推理能力，我们填补了当前科学文献中缺少的有关联合视觉和文本推理的系统分析，结果显示现代大型视觉和语言模型在高年级的问题解决能力越来越强，但缺乏解答针对年幼儿童设计的问题的基础知识，而且它们的能力似乎基于与儿童的数学和逻辑技能不同的推理类型。

Jun, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

RelationVLM: 构建大型视觉 - 语言模型以理解视觉关系

RelationVLM 是一种大型视觉语言模型，通过多阶段关系感知训练方案和相应的数据配置策略，使其具备理解多个图像或视频内的多个层次和类型关系的能力，该工作促进了 LVLM 的发展，使其能够支持更广泛的人工通用智能应用。

Mar, 2024