Oct, 2022

可信并非忠实:探究视觉-语言预训练中对象幻觉问题

TL;DR该论文系统研究了视觉语言预训练模型中对象幻觉问题,从近期最先进的VLP模型,VLP中不同类型的图像编码方式,以及VLP目标的不同方面入手,提出了一种名为ObjMLM的简单而有效的VLP损失,能够减少对象幻觉。实验表明,ObjMLM可以将对象幻觉降低多达17.4%。