Mar, 2024

视觉幻觉:定义、量化和规范化疗法

TL;DR本研究针对视觉-语言模型中的幻觉进行细致的分析,并通过图像字幕和视觉问答两个任务,确定了八个精细化的视觉幻觉方向:上下文猜测、身份不一致、地理错误、视觉错觉、性别异常、VLM作为分类器、错误阅读和数字不一致。同时,还提供了一个包含2,000个样本的公开数据集VHILT,用于研究这些类别的视觉幻觉。