Aug, 2024

观察、比较与决策:通过多视角多路径推理缓解大规模视觉语言模型中的幻觉问题

TL;DR本研究解决了大规模视觉语言模型(LVLMs)在多模态理解中产生幻觉的问题。提出了一种无需训练的框架MVP,通过多视角信息搜索策略和多路径推理来提高输出的准确性。实验表明,该方法显著减少了LVLMs中的幻觉现象,提升了模型的表现。