Dec, 2023

错位,对比,提炼:再思语言-图像预训练中的错位问题

TL;DR提出了一种新的度量学习方法——Misalign, Contrast then Distill (MCD),该方法利用图像和文本之间的错位作为额外的训练来源,通过预测增强图像和文本之间的连续错位程度,达到了多个分类和检索数据集中最先进的迁移能力。