ChEF: 一个综合评估框架用于对多模态大型语言模型进行标准化评估

Nov, 2023

ChEF: 一个综合评估框架用于对多模态大型语言模型进行标准化评估

ChEF: A Comprehensive Evaluation Framework for Standardized Assessment of Multimodal Large Language Models

Zhelun Shi, Zhipin Wang, Hongxing Fan, Zhenfei Yin, Lu Sheng...

TL;DR通过构建全面的评估框架（ChEF），对多模态大语言模型（MLLMs）的能力和限制进行标准化和全面的评估，以及提出新的评估方法和模型集成工具包，以促进 MLLM 社区的进一步分析和发展。

Abstract

multimodal large language models (MLLMs) have shown impressive abilities in interacting with visual content with myriad potential downstream tasks. However, even though a list of benchmarks has been proposed, the capabilities and limitations of MLLMs are still not comprehensively under

multimodal large language models comprehensive evaluation framework scalable multimodal datasets reliable agents multimodal interactions

发现论文，激发创造

多模态大型语言模型与人类价值观相协调的评估

通过引入 Ch3Ef 数据集和评估策略，本研究总结了 10 多个关键发现，增进了对多模态大语言模型的能力、局限性以及评估层次之间的动态关系的理解，为未来领域的进展指明了方向。

Mar, 2024

多模态大型语言模型的流程图理解的多维度评估

我们提出了综合评估方法 FlowCE，以评估多模态大语言模型（MLLMs）在与流程图相关的任务中的各种能力。

Jun, 2024

MME: 多模态大语言模型综合评估基准

本文介绍了第一代 MLLM 评估基准 - MME 模型，并对 10 种先进的 MLLM 模型进行了全面评估，同时对模型优化的潜在方向进行了研究。

Jun, 2023

语言模型整体评估

我们提出了综合评估语言模型 (HELM) 来提高人们对这一基础技术的透明度，采用多指标方法测量 16 个核心场景的 7 个指标，此外还进行了 7 个有针对性的评估，总结了 25 个高层次结论，并公开了所有模型和完成的原始数据。

Nov, 2022

SEED-Bench-2：多模态大型语言模型基准测试

我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对 23 个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。

Nov, 2023

SEED-Bench: 用生成理解评估多模态 LLMs 的基准

基于强大的大型语言模型（LLMs），最近的生成式多模态大型语言模型（MLLMs）作为一个关键的研究领域备受关注，展示了出色的理解和生成能力。本研究通过引入一个名为 SEED-Bench 的基准测试，解决了 MLLMs 生成理解的评估问题，该基准测试包含 19K 个准确的多项选择问题（是现有基准测试的 6 倍大），涵盖了 12 个评估维度，包括图像和视频模态的理解。我们开发了一个高级流程用于生成以特定评估维度为目标的多项选择问题，该流程整合了自动过滤和人工验证过程。由人类注释导出的带有真实选项的多项选择问题可以客观且高效地评估模型性能，在评估过程中无需人类或 GPT 的干预。我们进一步评估了 18 个模型在所有 12 个维度上的性能，涵盖了空间和时间的理解。通过评估结果揭示现有 MLLMs 的局限性，我们希望 SEED-Bench 为激发未来的研究提供见解。我们将建立并持续维护一个排行榜，为社区提供评估和研究模型能力的平台。

Jul, 2023

MM-BigBench：评估多模态模型在多模态内容理解任务上的表现

通过使用全面的评估框架 MM-BigBench，本文综合评估了 20 个语言模型（包括 14 个多模态大型语言模型）在 14 个多模态数据集上的性能，并通过引入新的指标，对不同模型和指令之间的性能以及适应性进行了评估。

Oct, 2023

CheckEval: 通过检查清单使用大型语言模型进行鲁棒评估框架

CheckEval 是一个使用大型语言模型的新型评估框架，通过将评估标准细分为详细的子方面，并构建每个方面的布尔问题清单，以简化评估过程中的模棱两可性和不一致性。该方法不仅使过程更具可解释性，还通过专注于特定的评估维度，显著提高了结果的健壮性和可靠性。CheckEval 在使用 SummEval 基准进行的重点案例研究中获得验证，表明与人类判断之间存在强烈的相关性，并且表现出高度一致的标注者间一致性。这些发现突显了 CheckEval 在客观、灵活和精确评估方面的有效性。通过提供可定制和交互式的框架，CheckEval 为语言模型评估树立了新的标准，回应了该领域不断发展的需求，并为未来基于语言模型的评估建立了清晰的方法。

Mar, 2024

FreeEval: 大型语言模型的可靠高效评估的模块化框架

介绍了一个名为 FreeEval 的模块化和可扩展框架，用于可靠高效地自动评估大型语言模型，通过统一的架构整合了各种评估方法，并结合人工评估和数据污染检测等元评估技术，实现了评估结果的公平性。

Apr, 2024

PsyEval：一种用于精神健康领域的综合大型语言模型评估基准

目前缺乏对大型语言模型（LLMs）在心理健康领域能力评估的全面基准。因此，我们填补该空白，并引入了首个适用于心理健康领域特点的全面基准，包括六个子任务、三个维度，系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示，并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间，还揭示了未来模型优化的潜在方向。

Nov, 2023