Sep, 2024

理解无参数表示对齐的多模态幻觉

TL;DR本研究解决了多模态大语言模型(MLLMs)中幻觉现象的成因问题,提出了一种无参数的表示对齐度量(Pfram),能有效测量图像表示系统的相似性。通过利用该度量评估对象注释,我们发现其与多种最先进的MLLMs中的对象幻觉表现出强相关性,从而为改善图像表示和多模态模型设计提出了新的见解。