Aug, 2024

通过主动检索增强减轻大型视觉-语言模型的幻觉

TL;DR本文针对大型视觉-语言模型(LVLM)在图像理解中常出现的幻觉问题,提出了一种新颖的主动检索增强框架(ARA),旨在通过优化检索目标、检索方法和检索时机来减轻模型生成不实回应的情况。研究表明,适当的检索机制和合理的检索时机能够有效降低幻觉现象,从而为LVLM的应用提供了重要的实践参考与理论支持。