AesBench：多模态大型语言模型在图像美学感知方面的专业基准

Jan, 2024

AesBench：多模态大型语言模型在图像美学感知方面的专业基准

AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception

Yipo Huang, Quan Yuan, Xiangfei Sheng, Zhichao Yang, Haoning Wu...

TL;DR通过构建一个包含多样化图像内容和高质量专业审美专家注释的专家标记的美学感知数据库（EAPD）和一套综合性评判标准，我们提出了 AesBench 来全面评估多模态大规模语言模型（MLLMs）的美学感知能力，实验结果表明，目前的 MLLMs 只具有初步的美学感知能力，与人类之间仍然存在显著差距。希望此研究能激发学术界对 MLLMs 美学潜力的进一步探索。

Abstract

With collective endeavors, multimodal large language models (MLLMs) are undergoing a flourishing development. However, their performances on image aesthetics perception remain indeterminate, which is highly desired in real-world applications. An obvious obstacle lies in the absence of

multimodal large language models image aesthetics perception benchmark aesthetic perception capacities aesbench

发现论文，激发创造

AesExpert：面向图像美学感知的多模态基础模型

通过构建 Aesthetic Multi-Modality Instruction Tuning（AesMMIT）数据集，并基于该数据集进行 fine-tuning，实现了 multi-modality Aesthetic Expert 模型，即 AesExpert，其在审美知觉性能方面显著优于当前最先进的 MLLMs

Apr, 2024

II-Bench：基于多模态大型语言模型的图像影响理解基准

通过对多个多模态大型语言模型进行实验，我们发现高级图片感知能力方面存在较大差距，并且这些模型在理解高级语义和捕捉图片细节方面存在限制。此外，当提供图片情感极性提示时，大多数模型表现出更好的准确性，暴露出它们对图片情感的内在理解不足。

Jun, 2024

MME: 多模态大语言模型综合评估基准

本文介绍了第一代 MLLM 评估基准 - MME 模型，并对 10 种先进的 MLLM 模型进行了全面评估，同时对模型优化的潜在方向进行了研究。

Jun, 2023

UNIAA: 统一的多模态图像审美评估基准和参考

通过提出统一多模态图像审美评估（UNIAA）框架，包括带有视觉感知和语言能力的多模态大型语言模型（MLLM）UNIAA-LLaVA 以及一个全面的基准 UNIAA-Bench，本文将图像审美评估（IAA）的成本降低，并通过解决现有数据集转化问题，在多个审美水平上验证了 UNIAA 的有效性和合理性。

Apr, 2024

MM-SAP：评估多模态大型语言模型在感知领域自感知能力的综合基准

通过引入知识象限来定义知道与不知道的知觉，我们针对自我知觉在图像感知方面提出了一个评估多模态大型语言模型的自我感知能力的新型基准测试（MM-SAP），通过评估八种知名的多模态大型语言模型的自我感知能力，提供了详细的洞察。

Jan, 2024

PCA-Bench: 评估感知 - 认知 - 行动链中的多模态大型语言模型

PCA-Bench 是一个用于评估多模态大型语言模型（MLLMs）综合能力的多模态决策基准，引入了三个复杂场景：自动驾驶、家庭机器人和开放世界游戏，并提出了误差定位能力和自动评估协议 PCA-Eval 对 10 种著名 MLLM 进行评估结果显示开源模型和 GPT-4 Vision 等强大专有模型之间存在显著性能差异，通过引入基于体验环境的自动框架 Embodied-Instruction-Evolution（EIE），在 PCA-Bench 中生成了 7,510 个训练示例，并提高了开源 MLLM 的性能，偶尔超越 GPT-4 Vision（+3％决策准确性），验证了 EIE 的有效性，发现 GPT4-Vision 之类的鲁棒 MLLM 对体验型代理的决策具有潜力，为 MLLM 研究开辟了新的道路。

Feb, 2024

低级视觉上多模态基础模型的基准：从单图像到图像对

通过设计基准测试，评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力，并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现，多个 MLLMs 在单一图像上表现出不错的低层次视觉能力，但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性（类似于人类）。希望这个基准测试能够激发进一步研究，揭示和增强 MLLMs 的新兴能力。

Feb, 2024

MLLM 作为评判者：以视觉 - 语言基准评估多模态 MLLM

通过引入一种新的基准测试，MLLMs 作为评判者，本研究揭示了 MLLMs 在评估任务中的能力，并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异，同时面临着多样的偏见、幻觉反应和不一致问题，强调了对 MLLMs 进一步改进和研究的迫切需求。

Feb, 2024

MIA-Bench: 多模态 LLMs 的更好指令遵循评估

我们引入了 MIA-Bench，一个新的基准测试，旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型，我们发现性能存在显著差异，突出了指令准确性方面的改进空间。此外，我们创建了额外的训练数据，并探索监督微调来提高模型在严格遵循指令的能力，而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度，还能指导未来的多模态大型语言模型训练方法的发展。

Jul, 2024

A-Bench: LMM 在评估 AI 生成图像方面的能力

如何准确高效地评估人工智能生成的图像（AIGIs）仍然是生成模型面临的重大挑战。为了避免用户研究时高昂的成本和广泛的时间投入，许多研究人员已转向大型多模型模型（LMMs）作为 AIGI 评估器，其精确性和有效性仍然存疑。此外，传统的基准测试通常主要使用自然捕获的内容而不是 AIGIs 来测试 LMMs 的能力，导致对 AIGIs 存在明显的差距。因此，在本文中我们介绍了 A-Bench，一个旨在诊断 LMMs 是否擅长评估 AIGIs 的基准测试。具体而言，A-Bench 遵循两个关键原则：1）强调高水平的语义理解和低水平的视觉质量感知，以应对 AIGIs 的复杂需求。2）利用各种生成模型创建 AIGIs，并利用各种 LMMs 进行评估，以确保全面的验证范围。最终，我们从 16 个文本到图像模型中选取了 2864 个 AIGIs，每个 AIGI 都与由人工专家注释的问题答案成对，然后在 18 个主要的 LMMs 上进行了测试。我们希望 A-Bench 能够显著提升评估过程并改进 AIGIs 的生成质量。该基准测试可以在此 https URL 找到。

Jun, 2024