May, 2024

多模态对比学习的CLIPLoss和基于范数的数据选择方法

TL;DR数据选择是大规模视觉-语言模型预训练(例如CLIP)中的一个核心问题,本文提出了两种新方法:一种是利用negCLIPLoss作为质量测量的CLIP损失启发式方法,另一种是使用NormSim度量预训练数据和目标数据之间的相似性,这两种方法的结合将当前最佳方法DFN和HYPE的平均性能提高了0.9%,达到了新的最佳水平。