May, 2024

多模态对比学习的 CLIPLoss 和基于范数的数据选择方法

TL;DR数据选择是大规模视觉 - 语言模型预训练(例如 CLIP)中的一个核心问题,本文提出了两种新方法:一种是利用 negCLIPLoss 作为质量测量的 CLIP 损失启发式方法,另一种是使用 NormSim 度量预训练数据和目标数据之间的相似性,这两种方法的结合将当前最佳方法 DFN 和 HYPE 的平均性能提高了 0.9%,达到了新的最佳水平。