AGLA：借助全局和局部注意力组合，缓解大型视觉语言模型中的物体幻觉

Jun, 2024

AGLA：借助全局和局部注意力组合，缓解大型视觉语言模型中的物体幻觉

AGLA: Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention

Wenbin An, Feng Tian, Sicong Leng, Jiahao Nie, Haonan Lin...

TL;DR通过研究大型视觉语言模型（LVLMs），本论文确定了对象幻觉的一个根本原因是对辨别性局部图像特征的注意力不足。基于此，我们提出了全局和局部注意力组装（AGLA）方法，该方法通过同时探索用于响应生成的全局特征和用于视觉辨别的局部特征，从而减轻对象幻觉。大量实验证明，AGLA 方法能够一致地减轻对象幻觉并提高 LVLM 在各种辨别性和生成性基准任务中的感知能力。

Abstract

Despite their great success across various multimodal tasks, Large Vision-Language Models (LVLMs) are facing a prevalent problem with object hallucinations, where the generated textual responses are inconsistent with ground-truth objects in the given image. This paper investigates various LVLMs and pinpoints →

large vision-language models object hallucinations attention deficiency assembly of global and local attention visual discrimination

发现论文，激发创造

大型视觉语言模型中的对象幻觉分析与缓解

LVLM Hallucination Revisor (LURE) 是一种简单而强大的算法，通过重建较少产生幻觉的描述来修正 LVLMs 中的物体幻觉问题，从而提高视觉总结和推理等视觉语言任务的性能。

Oct, 2023

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024

通过无分类器引导在大型视觉语言模型中减轻物体幻觉

通过 MARINE 框架，可以在生成过程中有效地减少大视觉 - 语言模型的假象，并提高生成细节，无需 teaining/fine-tuning 或 API 访问。

Feb, 2024

见之于眼：通过 CLIP 引导解码减轻大型视觉语言模型产生的幻觉

大规模视觉语言模型容易出现对象幻觉问题，本文提出了使用 CLIP 引导解码的方法来减少对象幻觉，通过增强生成文本与图像之间的视觉联系，有效缓解了多个视觉语言模型家族中的对象幻觉问题，并且保持了文本生成的实用性。

Feb, 2024

评估大规模视觉语言模型中的物体错构

通过对大型视觉语言模型的系统研究，本论文发现大型视觉语言模型容易出现物体幻影问题，并探讨了视觉指导对幻觉的影响，提出了一种改进的评估方法 POPE，以更稳定和灵活的方式评估物体幻影问题。

May, 2023

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

可信并非忠实：探究视觉 - 语言预训练中对象幻觉问题

该论文系统研究了视觉语言预训练模型中对象幻觉问题，从近期最先进的 VLP 模型，VLP 中不同类型的图像编码方式，以及 VLP 目标的不同方面入手，提出了一种名为 ObjMLM 的简单而有效的 VLP 损失，能够减少对象幻觉。实验表明，ObjMLM 可以将对象幻觉降低多达 17.4%。

Oct, 2022

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

目标引导是否真能减少大型视觉语言模型的幻觉？

在 LVLM 的开放式字幕生成中，细粒度对象定位目标对对象形象幻觉的效果很小或没有效果。

Jun, 2024