Jun, 2024
评估用于大型视觉语言模型的幻觉基准的质量
Evaluating the Quality of Hallucination Benchmarks for Large
Vision-Language Models
TL;DR大规模视觉语言模型(LVLMs)的幻觉问题是当前研究的主要关注领域,本研究提出了一种用于评估幻觉质量的基准测量框架(HQM),通过可靠性和有效性的指标对现有幻觉基准进行评估,并构建了一种高质量的LVLMs幻觉基准(HQH)。研究在多个代表性LVLMs模型上进行了广泛评估,揭示了现有模型中存在的幻觉问题。