AlignMMBench：对大规模视觉 - 语言模型中的中文多模态对齐进行评估

Jun, 2024

AlignMMBench：对大规模视觉 - 语言模型中的中文多模态对齐进行评估

AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models

Yuhang Wu, Wenmeng Yu, Yean Cheng, Yan Wang, Xiaohan Zhang...

TL;DR本研究通过引入 AlignMMBench，一个专门为新兴的中文视觉 - 语言模型设计的综合对齐基准，从真实场景和中国互联网来源精心策划，并包括三个类别中的十三个具体任务，以及单轮和多轮对话场景。通过结合一个提示重写策略，AlignMMBench 包括 1054 个图像和 4978 个问答对。为了促进评估流程，我们提出了 CritiqueVLM，一个超越 GPT-4 评估能力的规则校准评估器。最后，我们报告了 AlignMMBench 上代表性 VLM 的性能，提供了不同 VLM 架构的能力和限制的见解。

Abstract

Evaluating the alignment capabilities of large vision-language models (VLMs) is essential for determining their effectiveness as helpful assistants. However, existing benchmarks primarily focus on basic abilities

alignment capabilities vision-language models alignmmbench chinese vlms evaluation pipeline

发现论文，激发创造

AlignBench：大型语言模型中文对齐性能基准测试

介绍了 AlignBench，这是一个多维基准，用于评估中文大型语言模型（LLMs）的对齐能力。使用人机协作的数据处理流程，通过使用 Rule-calibrated 多维 LLM 作为评判者和思维链来生成解释和最终评级，确保评估的可靠性和解释性。此外，开发了专门用于评估中文 LLMs 对齐性的伴侣评估模型 CritiqueLLM，可通过公共 API 提供给研究人员使用。

Nov, 2023

MMT-Bench：一个综合评估大型视觉语言模型向多任务人工通用智能发展的多模态基准

该研究介绍了 MMT-Bench，这是一个综合性评估基准，旨在评估大规模视觉 - 语言模型（LVLM）在多种跨领域的多模态任务上的能力，并促进下一代通用多模态智能基础模型的发展。

Apr, 2024

大型语言模型作为自动标定器用于基准测试视觉语言模型

通过自动数据整理和评估，利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力，我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。

Nov, 2023

MMBench: 您的多模型是否是全能选手？

提出了一种新的多模式基准测试方法 MMBench，通过精心策划的数据集和结合 CircularEval 策略和 ChatGPT 的方法来对大视觉语言模型进行综合评估，旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。

Jul, 2023

MLLM-Bench，使用 GPT-4V 评估多模式 LLMs

为了追求人工通用智能（AGI），将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型（MLLMs）的出现，如 GPT-4V，扩展了人工智能应用程序，与人脑的多模态能力相匹配。然而，评估 MLLMs 的有效性面临着重大挑战，因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询，并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题，我们引入了 MLLM-Bench，这是一个受 Vicuna 启发的创新基准，涵盖了各种场景，包括感知、理解、应用、分析、评估和创作，以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验，并提供了对模型性能更全面的评估。对比评估结果表明，现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为，MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。

Nov, 2023

GAOKAO-MM: 中国多模态模型评估的人类水平基准

提出了 GAOKAO-MM，这是一个基于中国高考的多模态基准，评估了 10 个大型视觉语言模型 (LVLMs)，发现它们的准确率都低于 50％，排名前三的是 GPT-4-Vison（48.1％），Qwen-VL-Plus（41.2％）和 Gemini-Pro-Vision（35.1％）。多维分析结果表明 LVLMs 在人工通用智能 (AGI) 方面有适度的距离，并为多语言 LVLMs 的发展提供了启示。

Feb, 2024

MMBench-Video：一种用于整体视频理解的长形多镜头基准

通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现，该评估基准充分考虑视频内容，并充分评估模型的时间理解能力，从而为改进大规模视觉语言模型的评估提供了有价值的资源，促进了视频理解领域的进展。

Jun, 2024

MLLM 作为评判者：以视觉 - 语言基准评估多模态 MLLM

通过引入一种新的基准测试，MLLMs 作为评判者，本研究揭示了 MLLMs 在评估任务中的能力，并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异，同时面临着多样的偏见、幻觉反应和不一致问题，强调了对 MLLMs 进一步改进和研究的迫切需求。

Feb, 2024

VisualWebBench：多模态 LLM 在网页理解和解释中的发展程度如何？

多模式大型语言模型在网页相关任务中表现出了很大的潜力，评估其在网页领域的性能仍然是一个挑战，因为缺乏全面的基准测试。本文引入了一个名为 ench {} 的多模式基准测试，其设计旨在评估 ML 近几年在网页任务中的能力。通过在 ench {} 上评估了 14 个开源 MLLMs，如 Gemini Pro、Claude-3 系列和 GPT-4V (ision)，我们揭示了重要挑战和性能差距。进一步的分析突出了当前 MLLMs 的限制，包括在文本丰富环境中缺乏足够的基础知识，并在低分辨率图像输入下表现不佳。我们相信 ench {} 将成为研究界宝贵的资源，并为网页相关应用的更加强大和多功能的 MLLMs 的创建做出贡献。

Apr, 2024

大型视觉语言模型的评估是否正确？

通过研究评估作品，我们找出了两个主要问题：1）对于很多样本来说，视觉内容是不必要的；答案可以直接从问题和选项中推断出来，或者来自于 LLM 中的世界知识。2）在 LLM 和 LVLM 训练中存在意外的数据泄漏。为了解决这些问题，我们提出了 MMStar，这是一个由人工精选的具有 6 个核心能力和 18 个详细方向的视觉不可或缺的多模态基准。我们在 MMStar 上评估了 16 个主要的 LVLM，以评估它们的多模态能力，并通过提出的指标在 7 个基准上调查了它们的数据泄漏和实际多模态增益。

Mar, 2024