Dec, 2023

魔法后的 MERLIM: 大型图像 - 语言模型的多模态评估基准

TL;DR本文介绍了一个名为 MERLIM 的多模式评估基准,用于评估 IT-LVLM 在基本计算机视觉任务中的表现,发现先进的 IT-LVLM 仍然有限于识别精细的视觉概念,对象幻觉在各种任务中普遍存在,而且结果受输入查询的细微变化的强烈偏见影响,即使查询具有相同的语义。研究结果还表明,这些模型在视觉基础上较弱,但仍然可以通过全局视觉模式或 LLM 组件中的文本偏见进行恰当的猜测。