Aug, 2024

通过语言对比解码(LCD)减少大型视觉语言模型中的幻觉

TL;DR本研究解决了大型视觉语言模型(LVLMs)在处理图像和文本输入时出现的对象幻觉问题,提出了一种新的语言对比解码(LCD)算法。该算法利用大型语言模型的分布置信度调整LVLM输出,显著减少了幻觉现象,带来了高达4%的POPE F1分数提升和36%的CHAIR分数降低,表明了其在提高模型性能方面的潜力。