MedVH：面向医学环境中大型视觉语言模型的幻觉系统评估

Jul, 2024

MedVH：面向医学环境中大型视觉语言模型的幻觉系统评估

MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context

Zishan Gu, Changchang Yin, Fenglin Liu, Ping Zhang

TL;DR大视觉语言模型（LVLMs）在自然图像和文本数据的各种任务中取得了卓越的性能，在LVLMs微调和训练方面引发了大量研究。尽管有所进展，但对这些模型在小型数据集上微调时对幻觉的稳健性的研究非常有限。本研究引入了一个新的基准数据集，即医学视觉幻觉测试（MedVH），以评估特定领域LVLMs的幻觉。MedVH包括五个任务，用于评估LVLMs在医学上下文中的幻觉，包括对文本和视觉输入的全面理解以及长文本回应生成。我们对通用LVLMs和医学LVLMs进行了广泛实验，发现尽管医学LVLMs在标准医学任务上表现出了很好的性能，但它们特别容易产生幻觉，通常比通用模型更容易产生幻觉，这引发了对这些特定领域模型可靠性的重大担忧。对于医学LVLMs在真实世界应用中真正有价值，它们不仅必须准确整合医学知识，还必须保持稳健的推理能力以防止幻觉。我们的工作为未来的这些研究提供了评估的途径。

Abstract

large vision language models (LVLMs) have recently achieved superior performance in various tasks on natural image and text data, which inspires a large amount of studies for LVLMs fine-tuning and training. Despite their advancements, there has been scant research on the robustness of