Aug, 2024

MME-RealWorld:你的多模态大语言模型能在高分辨率的现实场景中挑战困难吗?

TL;DR本研究针对现有多模态大语言模型(MLLMs)评估面临的挑战,特别是数据规模小导致的性能差异、注释质量受限和任务难度不足等问题,提出了MME-RealWorld基准。通过筛选出13,366张高质量图像以及29,429对问答对,这一基准体现了现实应用中的复杂性,结果显示即便是最先进的模型在这一基准上也未能达到60%的准确率,凸显了改进高分辨率图像处理和复杂场景理解的迫切需求。