MetaToken: 通过元分类检测图像描述中的虚构

May, 2024

MetaToken: 通过元分类检测图像描述中的虚构

MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification

Laura Fieback, Jakob Spiegelberg, Hanno Gottschalk

TL;DR通过引入 MetaToken，该研究提出了一种轻量级二元分类器来在低成本下检测大规模视觉语言模型中的幻觉，揭示了之前研究中忽视的 LVLMs 幻觉的关键因素，并在四个最先进的 LVLM 上进行了评估，证明了该方法的有效性。

Abstract

large vision language models (LVLMs) have shown remarkable capabilities in multimodal tasks like visual question answering or image captioning. However, inconsistencies between the visual information and the generated text, a phenomenon referred to as →

large vision language models hallucinations metatoken trustworthiness token-level

发现论文，激发创造

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。

Feb, 2024

不要完全相信所读之事：通过对大型语言模型中幻觉的自动识别来增强摘要解释性

这篇论文通过深入探讨大型语言模型在幻觉方面的行为，定义了一种基于标记的方法以识别不同类型的幻觉，并进一步利用这种标记方法提高对话摘要任务中语言模型的可解释性和忠实度，同时提出了一个新的改进数据集和训练范式。

Dec, 2023

大规模语言模型生成中的幻觉检测：基于词元概率的方法

使用两个简单的分类器和从其他 LLM 评估器获得的四个数值特征，本文引入了一种监督学习方法，取得了有希望的结果，并在三个不同基准测试中超越了当前最先进的成果。

May, 2024

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对 MLLMs 中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024

使用大型视觉语言模型检测和评估医学幻觉

为了检测和评估 LVLMs 的幻觉，我们引入了 Med-HallMark，这是第一个专门设计用于医学多模态领域中的幻觉检测和评估的基准。我们提出了 MediHall Score 评价指标，并介绍了 MediHallDetector，一个用于准确检测幻觉的新型医学 LVLM。通过实验评估，我们建立了使用我们的基准的热门 LVLMs 的基准值，结果表明 MediHall Score 相对于传统指标提供了对幻觉影响更丰富的理解，并展示了 MediHallDetector 的改进性能。我们希望这项工作能显著提高 LVLMs 在医学应用中的可靠性。

Jun, 2024

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

基于幻觉增强对比学习的多模态大型语言模型

本文从表示学习的新角度解决了多模态大型语言模型中的幻觉问题，并通过引入对比学习的方法，在多个基准测试中证明了减少幻觉和提高性能的有效性。

Dec, 2023