H-POPE：基于分层投票的视觉语言模型幻觉评估

Nov, 2024

H-POPE：基于分层投票的视觉语言模型幻觉评估

H-POPE: Hierarchical Polling-based Probing Evaluation of Hallucinations in Large Vision-Language Models

Nhi Pham, Michael Schott

TL;DR本研究针对大型视觉语言模型中的幻觉问题，提出了一种名为H-POPE的分层评估基准，系统性地评估对象存在性及属性的幻觉现象。研究结果表明，模型在对象存在性和细粒度属性上均易发生幻觉，揭示了模型输出文本时对视觉输入的依赖性。

Abstract

By leveraging both texts and images, large vision language models (LVLMs) have shown significant progress in various multi-modal tasks. Nevertheless, these models often suffer from hallucinations, e.g., they exhi