Apr, 2024

VALOR-EVAL: 大型视觉语言模型的整体覆盖和忠实度评估

TL;DR大型视觉语言模型(LVLMs)在生成看似可信但事实上不正确的输出时存在幻觉问题,这损害了它们的可靠性。为了解决这些问题,我们介绍了一个多维度的评估基准和基于大型语言模型(LLM)的两阶段评估框架,通过对现有 LVLMs 进行实验,证明了我们的评估方法比现有工作更全面、与人类更相关,并且强调了在保持输出信息性的同时解决 LVLMs 中的幻觉问题的关键平衡。