May, 2023

通过交叉模态相似度调节的对比学习进行视觉语言预训练

TL;DR本文从互信息(MI)优化的角度研究了预训练中视觉语言交互 (VLP) 面临的(部分)误负样本的挑战,并提出了一种被逐步优化的跨模态相似性约束下的对比学习策略来更加准确地优化图像 / 文本锚点与其负样本的 MI,从而在四个下游跨模态任务中具有竞争力,平衡了(部分)误负样本的有益和有害效果。