ALOHa: 一种新的用于字幕模型中幻觉的评测指标

ACLApr, 2024

ALOHa: 一种新的用于字幕模型中幻觉的评测指标

ALOHa: A New Measure for Hallucination in Captioning Models

Suzanne Petryk, David M. Chan, Anish Kachinthaya, Haodi Zou, John Canny...

TL;DR尽管现在的先进多模态预训练模型能产生图像的描述，但仍存在错误的描述，如对场景中不存在的物体的错误描绘。本文提出了一种现代化的开放词汇度量标准 ALOHa，它利用大型语言模型 (LLMs) 来衡量物体的虚构情况。我们通过使用 LLM 从候选描述中提取可基准化的物体，测量它们与参考描述和物体检测中的参考物体的语义相似度，并使用匈牙利匹配算法生成最终的虚构评分。我们展示了在 HAT 上，ALOHa 对相对于 CHAIR 这个以 MS COCO 物体和同义词为基准的先进描绘虚构评估指标能正确识别出 13.6% 更多的虚构物体，以及在 nocaps 上能识别出相对于 MS COCO 类别范围更广的物体的增长率为 30.8%。我们的代码可在此网址上获得。

Abstract

Despite recent advances in multimodal pre-training for visual description, state-of-the-art models still produce captions containing errors, such as hallucinating objects not present in a scene. The existing prom

multimodal pre-training visual description object hallucination aloha large language models

发现论文，激发创造

图像字幕中的目标幻觉

该论文提出了一种新的图像相关性度量标准，以评估当前的图像字幕模型，防止物体幻觉现象，并探讨模型架构和学习目标对物体幻觉的贡献，以及语言先验对幻觉的影响，研究发现表现最佳的图像字幕模型并不总是具有较低的幻觉，并且出现幻觉的模型往往受到语言先验驱动的错误的影响。

Sep, 2018

MOCHa：多目标强化学习减轻标题幻觉

我们提出了一种新方法 MOCHa，通过使用强化学习（RL）的进展来处理图像字幕中幻觉的序列级性质，在不需要强监督的情况下共同优化字幕的准确性和生成的内容的逻辑一致性，并展示了其在不同规模的字幕模型上的卓越性能。

Dec, 2023

HALC: 自适应焦点 - 对比度解码的目标幻觉减少

通过引入 HALC 这一新的解码算法，LVLMs 的对象幻觉问题可以得到缓解，并在多模态场景下展示出令人印象深刻的能力。HALC 同时在局部和全局上操作，利用细粒度的优化视觉信息，通过稳健的自动对焦定位机制进行实时修正，并借助专门的波束搜索算法显著减少幻觉现象，同时保持文本生成的质量。此外，HALC 作为即插即用的模块可以集成到任何 LVLM 中，无需额外训练。广泛的实验研究表明，HALC 在减少对象幻觉方面的有效性优于现有技术，并在四个基准上取得优异的性能。

Mar, 2024

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

大型视觉语言模型中的对象幻觉分析与缓解

LVLM Hallucination Revisor (LURE) 是一种简单而强大的算法，通过重建较少产生幻觉的描述来修正 LVLMs 中的物体幻觉问题，从而提高视觉总结和推理等视觉语言任务的性能。

Oct, 2023

理解声音，忽视问题：大型音频语言模型中的对象幻觉挑战

现有的大型音频语言模型在集成音频感知能力方面扩展了传统大型语言模型的功能，对其性能在各种任务上进行了主要的评估，但忽视了它们的可靠性，特别是与对象幻觉等问题相关的可靠性。本研究引入了评估公开可用的大型音频语言模型的对象幻觉程度的方法。研究发现，大型音频语言模型在理解音频内容方面与专用音频字幕模型相媲美，但在回答鉴别性问题上遇到困难，尤其是要求识别音频剪辑中特定对象声音存在的问题。这个限制凸显了当前大型音频语言模型的一个关键弱点：对于鉴别性查询的理解不足。此外，我们还探索了提示工程在提高大型音频语言模型在鉴别性问题上的性能方面的潜力。

Jun, 2024

可信并非忠实：探究视觉 - 语言预训练中对象幻觉问题

该论文系统研究了视觉语言预训练模型中对象幻觉问题，从近期最先进的 VLP 模型，VLP 中不同类型的图像编码方式，以及 VLP 目标的不同方面入手，提出了一种名为 ObjMLM 的简单而有效的 VLP 损失，能够减少对象幻觉。实验表明，ObjMLM 可以将对象幻觉降低多达 17.4%。

Oct, 2022

幻觉排行榜 - 量化大型语言模型中的幻觉

该论文介绍了幻觉排行榜，一个旨在定量衡量和比较每个模型产生幻觉倾向的开放性倡议，通过一系列综合评估模型的基准测试，如准确性和忠实度等方面，涵盖了问答、摘要和阅读理解等不同任务，为研究人员和实践者指导选择最可靠的模型。

Apr, 2024

AutoHall: 大型语言模型的自动幻觉数据集生成

该论文提出了 AutoHall 方法，通过自相矛盾的方式自动构建模型特定的幻觉数据集，然后基于这些数据集实现了无资源和黑盒幻觉检测方法，对开源和闭源大型语言模型进行了实验证明，在幻觉检测性能上优于现有基准模型，并且发现了不同模型之间的幻觉比例和类型的差异。

Sep, 2023

HallE-Switch：对大型视觉语言模型中细节描述进行重新思考与控制物体存在幻觉

当前的大型视觉 - 语言模型（LVLMs）在细节描述方面存在明显不足，本研究提出了使用 GPT-4 的辅助评估方法 CCEval 来解决这个问题。通过调查和归因图像分辨率、语言解码器大小、指示数据量与质量对幻觉产生的影响，以及通过引入 HallE-Switch，一种可控的 LVLM 来减少对象存在上的幻觉。该方法与 LLaVA$_{7B}$ 相比减少了 44% 的幻觉，并且保持了相同的对象覆盖率。

Oct, 2023