MMIU:用于评估大型视觉语言模型的多模态多图像理解
本文介绍了一个 LVLM-eHub综合评估平台,使用6种多模态能力定量评估47个标准文本相关视觉基准,并利用在线平台提供用户级评估。结果显示,采用多轮推理评估框架可以缓解对象幻觉问题,为开发有效的LVLM评估流水线提供了启示。
Jun, 2023
提出了一种新的多模式基准测试方法MMBench,通过精心策划的数据集和结合CircularEval策略和ChatGPT的方法来对大视觉语言模型进行综合评估,旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。
Jul, 2023
通过使用全面的评估框架MM-BigBench,本文综合评估了20个语言模型(包括14个多模态大型语言模型)在14个多模态数据集上的性能,并通过引入新的指标,对不同模型和指令之间的性能以及适应性进行了评估。
Oct, 2023
通过设计基准测试,评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力,并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现,多个 MLLMs 在单一图像上表现出不错的低层次视觉能力,但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性(类似于人类)。希望这个基准测试能够激发进一步研究,揭示和增强 MLLMs 的新兴能力。
Feb, 2024
提出了GAOKAO-MM,这是一个基于中国高考的多模态基准,评估了10个大型视觉语言模型(LVLMs),发现它们的准确率都低于50%,排名前三的是GPT-4-Vison(48.1%),Qwen-VL-Plus(41.2%)和Gemini-Pro-Vision(35.1%)。多维分析结果表明LVLMs在人工通用智能(AGI)方面有适度的距离,并为多语言LVLMs的发展提供了启示。
Feb, 2024
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于LLM中的世界知识。2)在LLM和LVLM训练中存在意外的数据泄漏。为了解决这些问题,我们提出了MMStar,这是一个由人工精选的具有6个核心能力和18个详细方向的视觉不可或缺的多模态基准。我们在MMStar上评估了16个主要的LVLM,以评估它们的多模态能力,并通过提出的指标在7个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024
该研究介绍了MMT-Bench,这是一个综合性评估基准,旨在评估大规模视觉-语言模型(LVLM)在多种跨领域的多模态任务上的能力,并促进下一代通用多模态智能基础模型的发展。
Apr, 2024
在这篇论文中,我们介绍了Video-MME,这是第一个全方位的、多模式评估基准测试,用于评估MLLMs在视频分析中的性能。我们通过多种视频类型、持续时间的长短、多模态数据输入和精确的注释来评估多种MLLMs,并发现商业模型Gemini 1.5 Pro的性能最佳,明显优于开源模型。我们的研究数据集以及这些发现强调了处理更长序列和多模态数据的进一步改进的需求。
May, 2024
通过引入多图像关系基准(MIRB),我们评估了视觉语言模型(VLMs)在比较、分析和推理多个图像时的能力,并发现开源VLMs在单图像任务中接近GPT-4V的性能,但在多图像推理任务中存在显著的性能差距。我们的发现表明,即使是最先进的GPT-4V模型在我们的基准测试中也存在困难,强调了该领域进一步研究和开发的必要性。我们相信我们的MIRB可以作为开发下一代多模态模型的测试平台。
Jun, 2024
通过引入MMBench-Video来评估大规模视觉语言模型在视频理解方面的表现,该评估基准充分考虑视频内容,并充分评估模型的时间理解能力,从而为改进大规模视觉语言模型的评估提供了有价值的资源,促进了视频理解领域的进展。
Jun, 2024