RITUAL：随机图像变换作为 LVLM 中的通用抗幻觉杠杆

May, 2024

RITUAL：随机图像变换作为 LVLM 中的通用抗幻觉杠杆

RITUAL: Random Image Transformations as a Universal Anti-hallucination Lever in LVLMs

Sangmin Woo, Jaehyuk Jang, Donguk Kim, Yubin Choi, Changick Kim

TL;DR最近，大型视觉语言模型（LVLMs）的前沿发展彻底改变了机器基于视觉输入理解和生成文本响应的方式。然而，尽管这些模型的能力令人印象深刻，它们经常产生与视觉信息不符的 “幻觉性” 输出，给可靠性和可信度带来了挑战。当前的方法（如对比解码）在解决这些问题方面取得了一些进展，通过将生成的标记的原始概率分布与扭曲的对应物进行对比，然而生成视觉真实的输出仍然是一个挑战。在本研究中，我们将注意力转移到相反的方向上：什么能够作为原始概率分布的补充增强？我们提出了一种名为 RITUAL 的简单且无需训练的方法，以增强 LVLMs 对幻觉的鲁棒性。我们的方法利用随机图像变换作为原始概率分布的补充，旨在通过丰富模型对不同视觉情景的暴露来减少幻觉性视觉解释的可能性。我们的实证结果表明，尽管单独使用转换图像会最初降低性能，但有策略地实现这些转换确实可以作为有效的补充。值得注意的是，我们的方法与当前的对比解码方法兼容，并且不需要外部模型或昂贵的自反馈机制，因此具有实际应用价值。在实验中，RITUAL 在多个物体幻觉基准数据集（包括 POPE、CHAIR 和 MME）上显著优于现有的对比解码方法。

Abstract

Recent advancements in large vision language models (LVLMs) have revolutionized how machines understand and generate textual responses based on visual inputs. Despite their impressive capabilities, they often produce "hallucinatory" outputs that do not accurately reflect the visual inf

large vision language models hallucinatory outputs reliability trustworthiness ritual

发现论文，激发创造

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

通过诱导式优化减轻大型视觉语言模型中的幻觉

利用 Contrary Bradley-Terry Model 进行优化，引入 Hallucination-Induced Optimization 策略，提高 Large Visual Language Models 处理视觉对比解码中的幻觉问题的效果。

May, 2024

多模态图像幻觉控制：视觉信息的连接

通过引入 M3ID 多模态互信息解码方法对先前训练的视觉语言生成模型进行推理时的增强，能够减少幻觉并提高模型的依赖性，从而减少视觉无依据的回答。

Mar, 2024

通过视觉对比解码减轻大型视觉语言模型中的物体幻觉

大视觉语言模型（LVLMs）通过视觉识别和语言理解相结合，生成连贯且与上下文相关的内容，但仍然存在物体幻觉问题。本文介绍一种名为 Visual Contrastive Decoding（VCD）的简单且无需训练的方法，通过对比原始和失真的视觉输入产生的输出分布，有效降低统计偏差和单模式先验产生物体幻觉的影响，确保生成的内容与视觉输入密切相关，从而产生上下文准确的输出。实验证明，VCD 不需要额外的训练或使用外部工具，在不同的 LVLM 族群中显著减轻了物体幻觉问题。除减轻物体幻觉问题外，VCD 在通用 LVLM 基准测试中也表现出色，展示了其广泛的适用性。

Nov, 2023

大规模视觉语言模型中的多模态幻觉积聚的调查和缓解

当面临以前产生的幻觉相关查询时，大型视觉 - 语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗？这篇论文提出了一个评估 LVLMs 行为的框架，结果显示开源 LVLMs 的性能下降了至少 31％，进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。

Jun, 2024

基于幻觉增强对比学习的多模态大型语言模型

本文从表示学习的新角度解决了多模态大型语言模型中的幻觉问题，并通过引入对比学习的方法，在多个基准测试中证明了减少幻觉和提高性能的有效性。

Dec, 2023

IBD：通过图像偏置解码减轻大型视觉语言模型中的幻觉

本研究提出了一种新颖的图像偏置解码技术，以对抗引起幻觉的过度依赖文本的问题，并通过综合统计分析验证了该方法的可靠性，通过自适应调整策略在不同条件下实现了强大灵活的处理能力。实验证明，在不需要额外训练数据且仅有模型参数的微小增加情况下，我们的方法能够显著减少 LVLM 的幻觉，并增强生成回应的真实性。

Feb, 2024

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。

Feb, 2024

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

为大型视觉语言模型提供定向指导调节，减轻幻觉

针对当前大型视觉 - 语言模型在生成回复和相应图像之间存在的不一致问题，本研究提出了一种名为 DFTG 的有针对性的指导数据生成框架，通过诊断模型的响应和图像，生成有针对性的指导数据以减轻幻觉问题。实验结果表明，与先前的数据集相比，我们的方法生成的有针对性指导数据在减轻幻觉方面更加有效。

Apr, 2024