多模态大型语言模型的流程图理解的多维度评估
通过构建全面的评估框架(ChEF),对多模态大语言模型(MLLMs)的能力和限制进行标准化和全面的评估,以及提出新的评估方法和模型集成工具包,以促进 MLLM 社区的进一步分析和发展。
Nov, 2023
FlowVQA 是一个新颖的基准测试,旨在评估多模态语言模型在使用流程图作为视觉上下文进行推理的能力,其组成包括来自三个不同内容来源的 2,272 张经过精心生成和人工验证的流程图像以及 22,413 个多样化的问答对,以测试一系列推理任务,包括信息定位、决策和逻辑推进。在开源和专有的多模态语言模型上进行了彻底的基准评估,使用了各种策略,并对方向性偏差进行了分析。结果强调了这个基准测试作为推进多模态建模领域的重要工具的潜力,为提高模型在视觉和逻辑推理任务中的性能提供了一个专注和具有挑战性的环境。
Jun, 2024
FAC$^2$E 是一个针对大型语言模型 (LLMs) 的能力评估框架,通过提取 LLMs 的中间推理,将特定能力应用过程分解为三个子步骤,并评估每个细分能力的各个子步骤,从而全面区分 LLMs 的语言相关能力和认知相关能力。利用 FAC$^2$E,我们发现模型中知识利用方面存在常见不足,并提出了一种简单、知识增强的方法来缓解这个问题。我们的研究不仅展示了有希望的性能改进,还为未来 LLMs 的发展方向提供了启示。
Feb, 2024
通过引入 Ch3Ef 数据集和评估策略,本研究总结了 10 多个关键发现,增进了对多模态大语言模型的能力、局限性以及评估层次之间的动态关系的理解,为未来领域的进展指明了方向。
Mar, 2024
本文介绍了第一代 MLLM 评估基准 - MME 模型,并对 10 种先进的 MLLM 模型进行了全面评估,同时对模型优化的潜在方向进行了研究。
Jun, 2023
对四个大型语言模型在图数据分析问题上的能力进行评估,结果表明:1)大型语言模型能够有效地理解自然语言的图数据并进行图拓扑推理;2)GPT 模型能够生成逻辑和连贯的结果,在正确性方面优于其他替代方法;3)所有研究中的大型语言模型在结构推理方面面临挑战,零 - shot 推理和少 - shot 提示等技术效果减弱;4)在多答案任务中,GPT 模型常常产生错误答案,引发对可靠性的担忧;5)GPT 模型在输出上表现出较高的自信度,可能影响其纠正错误的能力。值得注意的是,GPT-4 显示了纠正 GPT-3.5-turbo 和其它版本回答的能力。
Aug, 2023
本研究通过对大型视觉语言模型(LVLMs)的全面评估,揭示了它们在图表理解和推理任务中的优势和局限性,并提供了未来研究的启示。
Jun, 2024
为了评估大型语言模型在人类式的多步逻辑推理方面的能力,我们提出了一种综合评估数据集 Multi-LogiEval,该数据集囊括了多步逻辑推理、各种推理规则和深度,并覆盖了命题逻辑、一阶逻辑和非单调逻辑等三种逻辑类型。实验结果表明,随着推理步骤 / 深度的增加,语言模型的性能显著下降(在深度为 1 时平均准确率约为 68%,深度为 5 时约为 43%)。我们相信 Multi-LogiEval 将有助于以后评估和提升大型语言模型的逻辑推理能力。
Jun, 2024
我们手动策划了一个专为多模态大型语言模型(MLLMs)设计的基准数据集,重点关注复杂推理任务,通过评估中间推理步骤来准确测量其推理能力。
Nov, 2023
通过更复杂的视觉逻辑和引入 ChartBench 基准,准确衡量 MLLMs 在图表数据中的基本理解能力和数据可靠性,并揭示了它们的局限性,以激发研究界对 MLLMs 的图表理解能力更加关注。
Dec, 2023