Feb, 2024

多模态大型语言模型的视觉幻觉

TL;DR通过使用一个工具称为 VHTest,我们生成了一个包含 8 种视觉幻觉模式的多样化 VH 实例数据集,并发现现有的多模态 LLM 如 GPT-4V,LLaVA-1.5 和 MiniGPT-v2 在我们的数据集中的大部分实例中出现幻觉,而使用我们的数据集对 MLLM 进行 fine-tuning 可以减少其幻觉可能性而不降低其在其他基准测试中的性能。