ACLJun, 2024

大规模视觉语言模型中的多模态幻觉积聚的调查和缓解

TL;DR当面临以前产生的幻觉相关查询时,大型视觉 - 语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗?这篇论文提出了一个评估 LVLMs 行为的框架,结果显示开源 LVLMs 的性能下降了至少 31%,进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。