CVPRApr, 2022

稳健的跨模态表示学习与渐进式自蒸馏

TL;DR通过交叉模态对比学习以及软图像 - 文本对齐等方法,改进了 CLIP 模型,在处理带有噪声的数据集时能更加高效地学习出具有鲁棒性的表示。经过对 14 个基准数据集的广泛评估,该方法在多种设置下表现均优于 CLIP,并且没有增加计算成本。此外,该方法还在自然分布偏移的鲁棒性测试中表现更好。