卡通幻觉检测：姿势感知上下文视觉学习

Mar, 2024

卡通幻觉检测：姿势感知上下文视觉学习

Cartoon Hallucinations Detection: Pose-aware In Context Visual Learning

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Sanghyun Seo

TL;DR使用大规模文本到图像模型生成训练数据在各种生成领域已经成为一种常见方法；然而，特别是在卡通角色等非逼真风格中，仍然存在感知上的关键缺陷的视觉幻觉问题；我们提出了一种针对由文本到图像模型生成的卡通角色图像的新型视觉幻觉检测系统；我们的方法利用了使用RGB图像和姿势信息的姿势感知上下文视觉学习（PA-ICVL）和视觉语言模型（VLMs），通过引入来自微调的姿势估计的姿势指导，使得VLMs能够做出更准确的决策；实验结果表明，与仅依赖于RGB图像的基准方法相比，我们在识别视觉幻觉方面取得了显著的改进；本研究通过减轻视觉幻觉问题，推动了文本到图像模型的发展，扩大了其在非逼真领域的潜力。

Abstract

Large-scale Text-to-Image (TTI) models have become a common approach for generating training data in various generative fields. However, visual hallucinations, which contain perceptually critical defects, remain a concern, especially in non-photorealistic styles like cartoon characters

发现论文，激发创造

可信并非忠实：探究视觉-语言预训练中对象幻觉问题

该论文系统研究了视觉语言预训练模型中对象幻觉问题，从近期最先进的VLP模型，VLP中不同类型的图像编码方式，以及VLP目标的不同方面入手，提出了一种名为ObjMLM的简单而有效的VLP损失，能够减少对象幻觉。实验表明，ObjMLM可以将对象幻觉降低多达17.4%。

Oct, 2022

用视觉监督减轻视觉-语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。

Feb, 2024

视觉幻觉：定义、量化和规范化疗法

本研究针对视觉-语言模型中的幻觉进行细致的分析，并通过图像字幕和视觉问答两个任务，确定了八个精细化的视觉幻觉方向：上下文猜测、身份不一致、地理错误、视觉错觉、性别异常、VLM作为分类器、错误阅读和数字不一致。同时，还提供了一个包含2,000个样本的公开数据集VHILT，用于研究这些类别的视觉幻觉。

Mar, 2024

VDGD：通过弥合视觉感知差距来减轻认知提示中的低可信度语言幻觉

对大型视觉语言模型（LVLMs）的幻觉问题进行了深入分析，发现了几个新的洞察力，提出了一种简单、稳健和无需训练的方法（VDGD）来减轻幻觉，实验结果表明VDGD在减少幻觉方面显著优于其他基线方法。

May, 2024

MetaToken: 通过元分类检测图像描述中的虚构

通过引入MetaToken，该研究提出了一种轻量级二元分类器来在低成本下检测大规模视觉语言模型中的幻觉，揭示了之前研究中忽视的LVLMs幻觉的关键因素，并在四个最先进的LVLM上进行了评估，证明了该方法的有效性。

May, 2024

AGLA：借助全局和局部注意力组合，缓解大型视觉语言模型中的物体幻觉

通过研究大型视觉语言模型（LVLMs），本论文确定了对象幻觉的一个根本原因是对辨别性局部图像特征的注意力不足。基于此，我们提出了全局和局部注意力组装（AGLA）方法，该方法通过同时探索用于响应生成的全局特征和用于视觉辨别的局部特征，从而减轻对象幻觉。大量实验证明，AGLA方法能够一致地减轻对象幻觉并提高LVLM在各种辨别性和生成性基准任务中的感知能力。

Jun, 2024

VideoHallucer：评估大型视频语言模型中的内在和外在幻觉

最近多模态大型语言模型在视频理解方面取得了重要进展，但这些模型常受到“幻觉”的困扰，本文介绍了VideoHallucer，它是对大规模视频语言模型的幻觉检测的首个综合性基准。通过评估11个大规模视频语言模型，我们发现当前的模型大多存在幻觉问题，并且对于探测外在真实幻觉的能力，扩大数据集和参数规模改进了模型对基本视觉线索和反事实的探测能力，却提供了有限的改进。

Jun, 2024

MedVH：面向医学环境中大型视觉语言模型的幻觉系统评估

大视觉语言模型（LVLMs）在自然图像和文本数据的各种任务中取得了卓越的性能，在LVLMs微调和训练方面引发了大量研究。尽管有所进展，但对这些模型在小型数据集上微调时对幻觉的稳健性的研究非常有限。本研究引入了一个新的基准数据集，即医学视觉幻觉测试（MedVH），以评估特定领域LVLMs的幻觉。MedVH包括五个任务，用于评估LVLMs在医学上下文中的幻觉，包括对文本和视觉输入的全面理解以及长文本回应生成。我们对通用LVLMs和医学LVLMs进行了广泛实验，发现尽管医学LVLMs在标准医学任务上表现出了很好的性能，但它们特别容易产生幻觉，通常比通用模型更容易产生幻觉，这引发了对这些特定领域模型可靠性的重大担忧。对于医学LVLMs在真实世界应用中真正有价值，它们不仅必须准确整合医学知识，还必须保持稳健的推理能力以防止幻觉。我们的工作为未来的这些研究提供了评估的途径。

Jul, 2024

Hallu-PI：在扰动输入下评估多模态大型语言模型的幻觉

本研究针对多模态大型语言模型（MLLMs）在扰动输入下产生不一致内容的问题，提出了第一个专门评估此类幻觉的基准Hallu-PI。我们的实验表明，这些模型在面对扰动输入时的幻觉现象显著，揭示了MLLMs在处理不同类型幻觉时的严重偏差，从而为后续研究提供了新的方向。

Aug, 2024