Oct, 2024

通过摘要引导解码减轻大型视觉-语言模型中的幻觉现象

TL;DR本研究解决了大型视觉-语言模型(LVLM)在生成基于视觉输入的响应时容易出现幻觉的问题。通过引入摘要引导解码(SGD)方法,研究表明该方法能够有效减少模型对语言先验的依赖,显著提升图像信息的利用率,并在对象幻觉基准测试中取得了最先进的表现,展现出更好的精确度与召回率平衡。