在回答之前仔细考虑:用于缓解多模态大型语言模型幻觉的记忆空间视觉重追
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8.4% 的改进,并在其他模型上取得了广泛的性能提升。
Nov, 2023
最近大型视觉语言模型(LVLMs)在人类语言理解方面展现出了令人印象深刻的能力,但仍面临多模态幻觉的挑战。本文提出一种新的观点,暗示LVLMs中固有的偏见可能是幻觉的关键因素,进而通过识别与段落分割('$ extbackslash n extbackslash n$')相关的语义转变偏差系统地发现这一现象。研究发现,这种模式导致模型推断'$ extbackslash n、 extbackslash n$'之后的内容应与之前的内容明显不同,从而使得'$ extbackslash n、 extbackslash n$'之后的描述具有更多的幻觉性。在多个公开可用的LVLMs上验证了这一假设,并发现在生成的描述中故意插入'$ extbackslash n extbackslash n$'可以诱发更多幻觉。本文提出了一种简单的方法,通过跳过` extbackslash n'的输出来有效减轻LVLMs的幻觉现象。
Feb, 2024
通过提出Pensieve方法,研究发现多模态大语言模型在处理视觉幻觉时会同时支持准确和不存在的内容,Pensieve方法通过在推理中回溯相关图像作为参考,并将其与测试图像进行比较,从而减少视觉幻觉现象,并提升图像描述的细节和特定性。
Mar, 2024
综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型(MLLMs)中产生幻觉的原因进行分析,旨在加深对MLLMs中幻觉的理解,并激发该领域的进一步发展。
Apr, 2024
当面临以前产生的幻觉相关查询时,大型视觉-语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗?这篇论文提出了一个评估LVLMs行为的框架,结果显示开源 LVLMs 的性能下降了至少 31%,进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。
Jun, 2024
本文针对大型视觉-语言模型(LVLM)在图像理解中常出现的幻觉问题,提出了一种新颖的主动检索增强框架(ARA),旨在通过优化检索目标、检索方法和检索时机来减轻模型生成不实回应的情况。研究表明,适当的检索机制和合理的检索时机能够有效降低幻觉现象,从而为LVLM的应用提供了重要的实践参考与理论支持。
Aug, 2024
本研究针对多模态大型语言模型(MLLMs)在扰动输入下产生不一致内容的问题,提出了第一个专门评估此类幻觉的基准Hallu-PI。我们的实验表明,这些模型在面对扰动输入时的幻觉现象显著,揭示了MLLMs在处理不同类型幻觉时的严重偏差,从而为后续研究提供了新的方向。
Aug, 2024
本研究解决了多模态大型语言模型(MLLMs)在生成输出时出现幻觉现象的根本原因尚不明了的问题。提出了一种新的动态修正解码方法(DeCo),该方法能适应性地选择适当的前层并将知识比例整合到最终层,从而调整输出。研究表明,DeCo显著降低了幻觉发生率,展现了其在减轻幻觉方面的潜力。
Oct, 2024
本研究解决了大型视觉-语言模型(LVLM)在生成基于视觉输入的响应时容易出现幻觉的问题。通过引入摘要引导解码(SGD)方法,研究表明该方法能够有效减少模型对语言先验的依赖,显著提升图像信息的利用率,并在对象幻觉基准测试中取得了最先进的表现,展现出更好的精确度与召回率平衡。
Oct, 2024