Dec, 2024
幻觉生成:评估大规模视觉语言模型中的物体幻觉的基准
HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large
Visual-Language Models
TL;DR本研究针对大型视觉语言模型(LVLMs)中物体幻觉问题,提出了HALLUCINOGEN基准,旨在评估其在多模态任务中对图像物体的准确识别能力。通过设计多样的上下文推理幻觉提示,本研究不仅丰富了LVLM的评估方式,还扩展至高风险医疗应用中的MED-HALLUCINOGEN,从而揭示了当前模型在医学图像方面的幻觉脆弱性,对医疗精确性具有重要影响。