Jul, 2024

BEAF:评估视觉语言模型中的幻觉的前后变化

TL;DR为了提高视觉语言模型(VLMs)的可信度并更好地解决其幻觉问题,我们创建了一个新的评估数据集,称为BEfore-AFter幻觉数据集(BEAF),并引入了新的指标:True Understanding (TU),IGnorance (IG),StuBbornness (SB),和 InDecision (ID)。通过图像编辑模型操纵视觉场景信息,并根据场景变化设计指标,我们可以清楚地评估VLMs是否能正确理解给定的场景,以观察其感知能力。