ACLOct, 2022
可信并非忠实:探究视觉 - 语言预训练中对象幻觉问题
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training
Wenliang Dai, Zihan Liu, Ziwei Ji, Dan Su, Pascale Fung
TL;DR该论文系统研究了视觉语言预训练模型中对象幻觉问题,从近期最先进的 VLP 模型,VLP 中不同类型的图像编码方式,以及 VLP 目标的不同方面入手,提出了一种名为 ObjMLM 的简单而有效的 VLP 损失,能够减少对象幻觉。实验表明,ObjMLM 可以将对象幻觉降低多达 17.4%。