Sep, 2024

超越视觉问答:MLLM评估的新方法

TL;DR本研究针对多模态大型语言模型(MLLM)在视觉理解方面的评估,提出了一种新方法,强调模型在独特描述极为相似图像时的能力。通过自我检索机制,使用D3基准测试,我们发现当前模型在细微视觉差异的辨别上表现欠佳,且开源模型的表现甚至未能超越随机猜测。