Feb, 2024

IBD:通过图像偏置解码减轻大型视觉语言模型中的幻觉

TL;DR本研究提出了一种新颖的图像偏置解码技术,以对抗引起幻觉的过度依赖文本的问题,并通过综合统计分析验证了该方法的可靠性,通过自适应调整策略在不同条件下实现了强大灵活的处理能力。实验证明,在不需要额外训练数据且仅有模型参数的微小增加情况下,我们的方法能够显著减少 LVLM 的幻觉,并增强生成回应的真实性。