Jan, 2024

记念品:一种用于模态多模式大型语言模型推理图像序列的综合基准

TL;DR这篇论文介绍了 Mementos,这是一个旨在评估多模态大型语言模型(MLLMs)的顺序图像推理能力的新基准,通过评估九种最新的 MLMMs 对 Mementos 的表现,发现它们在准确描述给定图像序列的动态信息方面存在困难,经常导致物体及其相关行为的幻觉 / 误代,研究确定了影响 MLLMs 顺序图像推理的三个关键因素:物体和行为幻觉之间的相关性,共发生行为的影响以及行为幻觉的复合影响。