VALOR-EVAL: 大型视觉语言模型的整体覆盖和忠实度评估
我们介绍了 FAITHSCORE(Faithfulness to Atomic Image Facts Score),这是一个无需参考的细粒度评估指标,用于衡量大型视觉语言模型(LVLMs)生成的自由形式答案的忠实度。我们的度量方法与人类对忠实程度的判断高度相关,结果显示当前系统容易生成与图像不符的产生幻觉的内容,留下了改进的空间。此外,我们发现当前的 LVLMs 虽然在颜色和计数方面表现良好,但在回答长度较长、关系和多个对象方面仍然存在困难。
Nov, 2023
大规模视觉语言模型(LVLMs)的幻觉问题是当前研究的主要关注领域,本研究提出了一种用于评估幻觉质量的基准测量框架(HQM),通过可靠性和有效性的指标对现有幻觉基准进行评估,并构建了一种高质量的 LVLMs 幻觉基准(HQH)。研究在多个代表性 LVLMs 模型上进行了广泛评估,揭示了现有模型中存在的幻觉问题。
Jun, 2024
基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法,并分析了导致幻觉的因素,并提供了缓解幻觉问题的建议。
Aug, 2023
该研究提出了一种包括事件妄想在内的妄想细分分类方法,并利用高级视觉语言模型生成和过滤各类妄想数据,在通用评估框架中集成鉴别和生成式评估方法,从而评估大规模视觉语言模型处理妄想的能力,为评估妄想提供了可靠而全面的工具。
Feb, 2024
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。
Feb, 2024
为了检测和评估 LVLMs 的幻觉,我们引入了 Med-HallMark,这是第一个专门设计用于医学多模态领域中的幻觉检测和评估的基准。我们提出了 MediHall Score 评价指标,并介绍了 MediHallDetector,一个用于准确检测幻觉的新型医学 LVLM。通过实验评估,我们建立了使用我们的基准的热门 LVLMs 的基准值,结果表明 MediHall Score 相对于传统指标提供了对幻觉影响更丰富的理解,并展示了 MediHallDetector 的改进性能。我们希望这项工作能显著提高 LVLMs 在医学应用中的可靠性。
Jun, 2024
综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型(MLLMs)中产生幻觉的原因进行分析,旨在加深对 MLLMs 中幻觉的理解,并激发该领域的进一步发展。
Apr, 2024
通过建立数据集和使用评估指标,我们发现大规模视觉语言模型中存在数量幻觉的普遍问题,并从内部和外部一致性问题的角度进行了深入分析。我们提出了一种一致性训练方法来减轻这种幻觉,与直接微调方法相比,其平均改善了 8%。
Mar, 2024
通过对大型视觉语言模型的系统研究,本论文发现大型视觉语言模型容易出现物体幻影问题,并探讨了视觉指导对幻觉的影响,提出了一种改进的评估方法 POPE,以更稳定和灵活的方式评估物体幻影问题。
May, 2023
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8.4% 的改进,并在其他模型上取得了广泛的性能提升。
Nov, 2023