Dec, 2023

视觉 - 语言预训练中的虚假负样例转换与平滑化

TL;DR我们提出了一种名为 COSMO 的方法,通过对虚假负样本进行处理,尤其在难样本采样方面有很强的能力,来解决视觉语言预训练 (VLP) 中虚假负样本的问题。我们的方法基于最近开发的 GRouped mIni-baTch 采样 (GRIT) 策略,包括两个关键组成部分:一是有效的连接挖掘过程,用于识别并将虚假负样本转换为正样本;二是用于图像 - 文本对比损失 (ITC) 的标签平滑处理。我们的综合实验证明了 COSMO 在多个下游任务上的有效性,强调了在 VLP 中解决虚假负样本的重要性,甚至可能超过解决虚假正样本的重要性。此外,我们还证明了 COSMO 与最新的 BLIP-family 模型的兼容性。