评估基于任务的多语言语言模型对图表的有效性

May, 2024

评估基于任务的多语言语言模型对图表的有效性

Evaluating Task-based Effectiveness of MLLMs on Charts

Yifan Wu, Lutao Yan, Yuyu Luo, Yunhai Wang, Nan Tang

TL;DR我们研究了 GPT-4V 在图表的低级数据分析任务中的有效性，并通过实验结果发现其潜力和局限性，同时提出了一种名为 “Chain-of-Charts” 的新颖文本提示策略，能够提高模型性能并揭示人类分析需求与 GPT-4V 能力之间的差距。

Abstract

In this paper, we explore a forward-thinking question: Is gpt-4v effective at low-level data analysis tasks on charts? To this end, we fir

gpt-4v low-level data analysis tasks charts mllms experimental findings

发现论文，激发创造

ChartX 和 ChartVLM：一种复杂图表推理的通用基准和基础模型

我们构建了一个多模态评估集 ChartX，包括 18 种图表类型、7 种图表任务、22 个学科领域和高质量的图表数据，然后开发了一个新的视角来处理依赖可解释模式的多模态任务，即 ChartVLM。我们在 ChartX 评估集上评估了主流多模态大模型和我们的 ChartVLM，实验证明 ChartVLM 在图表相关能力上超越了通用的和与图表相关的大模型，达到了与 GPT-4V 可比较的结果。我们相信我们的研究可以为在创建更全面的图表评估集和开发更可解释的多模态模型方面的进一步探索铺平道路。

Feb, 2024

评估 GPT4-V 在结构化推理任务上的表现

最近，GPT-4 语言模型与视觉能力相结合，我们对 GPT-4V 和其他五个基准模型进行了提示评估，包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought，在多模态 LLMs 上的扩展，在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析，突出了一致性多模态推理所面临的挑战。

Dec, 2023

探索 GPT-4V 在海洋分析中的边界：初步案例研究

该研究基于 GPT-4V 进行了海洋分析的初步和综合性案例研究，评估了 GPT-4V 在海洋研究中的性能，并为未来 MLLM 的发展设定了新的标准。实验结果表明，GPT-4V 生成的回应仍远未满足海洋领域的特定需求。

Jan, 2024

对基于知识的视觉问答模型 GPT-4V 的全面评估

通过从三个角度对 GPT-4V 进行深入评估，即常识知识、细粒度世界知识和具有决策理由的综合知识，我们发现 GPT-4V 在这三项任务上均取得了最好的性能，并且在使用复合图像进行少样本学习时具有增强的推理和解释能力，但在处理世界知识时可能导致严重的错觉，未来仍需要在这个研究方向上进行改进。

Nov, 2023

GPT-4V（视觉）的早期评估

GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态（如深度、热力、视频和音频）方面被评估，发现其在英语视觉基准上表现出色，但无法识别图像中的简单中文文本；在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制，但通过少样本提示可以提高其性能；此外，在视频和热力等与图像类似的任务上表现出了非常好的性能。

Oct, 2023

GPT-4V 作为视觉语言任务的通用评估器

GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力，尽管存在一些限制，但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。

Nov, 2023

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

MLLM-Bench，使用 GPT-4V 评估多模式 LLMs

为了追求人工通用智能（AGI），将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型（MLLMs）的出现，如 GPT-4V，扩展了人工智能应用程序，与人脑的多模态能力相匹配。然而，评估 MLLMs 的有效性面临着重大挑战，因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询，并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题，我们引入了 MLLM-Bench，这是一个受 Vicuna 启发的创新基准，涵盖了各种场景，包括感知、理解、应用、分析、评估和创作，以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验，并提供了对模型性能更全面的评估。对比评估结果表明，现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为，MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。

Nov, 2023

CharXiv：多模式 LLM 模型中现实图表理解的不足之处的概览

多模态大语言模型（MLLMs）在实际任务（如分析科学论文或财务报告）中应用图标理解起着重要作用。然而，现有数据集通常只关注模板化问题的简化和同质化图表，导致对进展的过于乐观的衡量。我们在这项工作中提出了 CharXiv，这是一个综合评估套件，包括来自 arXiv 论文的 2,323 个自然、具有挑战性和多样化的图表。CharXiv 包括两种类型的问题：1）描述性问题，涉及基本图表元素的检查；2）推理问题，需要综合图表中复杂的视觉元素的信息。我们的结果显示了最强专有模型（GPT-4o）的推理能力（47.1% 准确率）与最强开源模型（InternVL Chat V1.5）（29.2% 准确率）之间存在一个被低估的差距。所有模型远远落后于 80.5% 的人类表现，凸显了现有 MLLMs 在图表理解能力方面的不足。我们希望 CharXiv 通过提供更加真实和忠实的进展衡量，促进未来的 MLLM 图表理解研究。

Jun, 2024

评估 ChatGPT-4 Vision 在巴西国家本科计算机科学考试中

ChatGPT-4 Vision 在巴西 2021 年本科国家考试中展现了优秀的视觉能力，但在问题解释、逻辑推理和视觉敏锐度方面遇到了困难，提示未来考试需要改进问题设计。研究结果表明，虽然 ChatGPT-4 Vision 在多模态学术评估中表现出潜力，但人类监督仍然至关重要，以验证模型的准确性并确保高风险教育考试的公平性。

Jun, 2024