通过主动检索增强减轻大型视觉-语言模型的幻觉

Aug, 2024

通过主动检索增强减轻大型视觉-语言模型的幻觉

Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation

Xiaoye Qu, Qiyuan Chen, Wei Wei, Jishuo Sun, Jianfeng Dong

TL;DR本文针对大型视觉-语言模型（LVLM）在图像理解中常出现的幻觉问题，提出了一种新颖的主动检索增强框架（ARA），旨在通过优化检索目标、检索方法和检索时机来减轻模型生成不实回应的情况。研究表明，适当的检索机制和合理的检索时机能够有效降低幻觉现象，从而为LVLM的应用提供了重要的实践参考与理论支持。

Abstract

Despite the remarkable ability of large Vision-Language Models (LVLMs) in image comprehension, these models frequently generate plausible yet factually incorrect responses, a phenomenon known as Hallucination.Rec

发现论文，激发创造

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来LLM幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。

Feb, 2024

仅在需要时检索：用于大型语言模型中幻觉缓解的自适应检索增强

本研究提出了一种名为Rowen的新方法，通过有选择地检索外部信息，帮助大型语言模型增强以解决幻觉输出问题，通过多语义感知检测模块进行控制，确保内在参数和外部证据的平衡整合，从而优于当前国际领先技术在检测和减轻LLMs输出中的幻觉内容方面。

Feb, 2024

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测-重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对MLLMs中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

大规模视觉语言模型中的多模态幻觉积聚的调查和缓解

当面临以前产生的幻觉相关查询时，大型视觉-语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗？这篇论文提出了一个评估LVLMs行为的框架，结果显示开源 LVLMs 的性能下降了至少 31％，进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。

Jun, 2024

减轻大型视觉语言模型中的多语言幻觉

本研究针对大型视觉语言模型（LVLMs）在多语言场景下产生幻觉的问题进行了首次探索，指出该现象比英语环境下更为严重。提出了一种双阶段的多语言幻觉去除框架，通过跨语言对齐方法优化模型输出，显著提高了13种语言的准确率，平均提高19.0%。

Aug, 2024

自我反思解码：减轻大型视觉-语言模型的幻觉问题

本研究解决了大型视觉-语言模型（LVLMs）中的“幻觉”问题，该问题阻碍了其实际应用。我们提出了一种新的自我反思解码（SID）方法，通过根据先前的视觉和文本令牌评估视觉令牌的重要性，来有效减少幻觉现象，最终提高文本生成的质量和真实性。实验表明，SID在各种指标上生成的文本幻觉更少且质量更高，无需额外知识或计算负担。

Aug, 2024

观察、比较与决策：通过多视角多路径推理缓解大规模视觉语言模型中的幻觉问题

本研究解决了大规模视觉语言模型（LVLMs）在多模态理解中产生幻觉的问题。提出了一种无需训练的框架MVP，通过多视角信息搜索策略和多路径推理来提高输出的准确性。实验表明，该方法显著减少了LVLMs中的幻觉现象，提升了模型的表现。

Aug, 2024

通过摘要引导解码减轻大型视觉-语言模型中的幻觉现象

本研究解决了大型视觉-语言模型（LVLM）在生成基于视觉输入的响应时容易出现幻觉的问题。通过引入摘要引导解码（SGD）方法，研究表明该方法能够有效减少模型对语言先验的依赖，显著提升图像信息的利用率，并在对象幻觉基准测试中取得了最先进的表现，展现出更好的精确度与召回率平衡。

Oct, 2024