Dec, 2023

魔法后的MERLIM: 大型图像-语言模型的多模态评估基准

TL;DR本文介绍了一个名为MERLIM的多模式评估基准,用于评估IT-LVLM在基本计算机视觉任务中的表现,发现先进的IT-LVLM仍然有限于识别精细的视觉概念,对象幻觉在各种任务中普遍存在,而且结果受输入查询的细微变化的强烈偏见影响,即使查询具有相同的语义。研究结果还表明,这些模型在视觉基础上较弱,但仍然可以通过全局视觉模式或LLM组件中的文本偏见进行恰当的猜测。