ACLOct, 2022

可信并非忠实:探究视觉 - 语言预训练中对象幻觉问题

TL;DR该论文系统研究了视觉语言预训练模型中对象幻觉问题,从近期最先进的 VLP 模型,VLP 中不同类型的图像编码方式,以及 VLP 目标的不同方面入手,提出了一种名为 ObjMLM 的简单而有效的 VLP 损失,能够减少对象幻觉。实验表明,ObjMLM 可以将对象幻觉降低多达 17.4%。