II-Bench：基于多模态大型语言模型的图像影响理解基准

Jun, 2024

II-Bench：基于多模态大型语言模型的图像影响理解基准

II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models

Ziqiang Liu, Feiteng Fang, Xi Feng, Xinrun Du, Chenhao Zhang...

TL;DR通过对多个多模态大型语言模型进行实验，我们发现高级图片感知能力方面存在较大差距，并且这些模型在理解高级语义和捕捉图片细节方面存在限制。此外，当提供图片情感极性提示时，大多数模型表现出更好的准确性，暴露出它们对图片情感的内在理解不足。

Abstract

The rapid advancements in the development of multimodal large language models (MLLMs) have consistently led to new breakthroughs on various benchmarks. In response, numerous challenging and comprehensive benchmarks have been proposed to more accurately assess the capabilities of MLLMs.

multimodal large language models image implication understanding benchmark higher-order perception performance comparison image sentiment

发现论文，激发创造

MIA-Bench: 多模态 LLMs 的更好指令遵循评估

我们引入了 MIA-Bench，一个新的基准测试，旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型，我们发现性能存在显著差异，突出了指令准确性方面的改进空间。此外，我们创建了额外的训练数据，并探索监督微调来提高模型在严格遵循指令的能力，而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度，还能指导未来的多模态大型语言模型训练方法的发展。

Jul, 2024

SEED-Bench-2：多模态大型语言模型基准测试

我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对 23 个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。

Nov, 2023

A-Bench: LMM 在评估 AI 生成图像方面的能力

如何准确高效地评估人工智能生成的图像（AIGIs）仍然是生成模型面临的重大挑战。为了避免用户研究时高昂的成本和广泛的时间投入，许多研究人员已转向大型多模型模型（LMMs）作为 AIGI 评估器，其精确性和有效性仍然存疑。此外，传统的基准测试通常主要使用自然捕获的内容而不是 AIGIs 来测试 LMMs 的能力，导致对 AIGIs 存在明显的差距。因此，在本文中我们介绍了 A-Bench，一个旨在诊断 LMMs 是否擅长评估 AIGIs 的基准测试。具体而言，A-Bench 遵循两个关键原则：1）强调高水平的语义理解和低水平的视觉质量感知，以应对 AIGIs 的复杂需求。2）利用各种生成模型创建 AIGIs，并利用各种 LMMs 进行评估，以确保全面的验证范围。最终，我们从 16 个文本到图像模型中选取了 2864 个 AIGIs，每个 AIGI 都与由人工专家注释的问题答案成对，然后在 18 个主要的 LMMs 上进行了测试。我们希望 A-Bench 能够显著提升评估过程并改进 AIGIs 的生成质量。该基准测试可以在此 https URL 找到。

Jun, 2024

多模态理解排行榜：文本与图像

Multi 是一种多模态大型语言模型（MLLMs）的先进基准测试，提供了综合数据集，用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现，并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明，MLLMs 在 Multi 上取得了显著的进展，与其他 MLLMs 相比，GPT-4V 的准确率达到了 63.7%，Multi 不仅是一个强大的评估平台，也为专家级 AI 的发展铺平了道路。

Feb, 2024

魔法后的 MERLIM: 大型图像 - 语言模型的多模态评估基准

本文介绍了一个名为 MERLIM 的多模式评估基准，用于评估 IT-LVLM 在基本计算机视觉任务中的表现，发现先进的 IT-LVLM 仍然有限于识别精细的视觉概念，对象幻觉在各种任务中普遍存在，而且结果受输入查询的细微变化的强烈偏见影响，即使查询具有相同的语义。研究结果还表明，这些模型在视觉基础上较弱，但仍然可以通过全局视觉模式或 LLM 组件中的文本偏见进行恰当的猜测。

Dec, 2023

视觉与语言模型中的多图像理解基准测试：感知、知识、推理和多跳推理

通过引入多图像关系基准（MIRB），我们评估了视觉语言模型（VLMs）在比较、分析和推理多个图像时的能力，并发现开源 VLMs 在单图像任务中接近 GPT-4V 的性能，但在多图像推理任务中存在显著的性能差距。我们的发现表明，即使是最先进的 GPT-4V 模型在我们的基准测试中也存在困难，强调了该领域进一步研究和开发的必要性。我们相信我们的 MIRB 可以作为开发下一代多模态模型的测试平台。

Jun, 2024

通过合成基准评估大型视觉 - 语言模型对现实世界复杂性的理解

该研究评估了大型视觉语言模型（LVLMs）区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型，但存在向右的偏差，并且相对于人类表现出明显较差。为了深入研究这些发现，我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成，从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准，我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势，并推进了基准构建技术，提供了一种可扩展和自动化的人工智能模型评估方法。

Jun, 2024

Q-Bench：针对低级视觉的通用基准模型基准

通过构建低层视觉感知、低层视觉描述和视觉质量评估三个领域的综合基准，评估了多模式大型语言模型在低层视觉感知和理解方面的能力，并发现其具有基本的低层视觉技能，但这些技能仍不稳定和相对不精确，需要针对这些能力进行特定的增强。

Sep, 2023

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源 MLLMs 在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

AesBench：多模态大型语言模型在图像美学感知方面的专业基准

通过构建一个包含多样化图像内容和高质量专业审美专家注释的专家标记的美学感知数据库（EAPD）和一套综合性评判标准，我们提出了 AesBench 来全面评估多模态大规模语言模型（MLLMs）的美学感知能力，实验结果表明，目前的 MLLMs 只具有初步的美学感知能力，与人类之间仍然存在显著差距。希望此研究能激发学术界对 MLLMs 美学潜力的进一步探索。

Jan, 2024