Feb, 2024

方差对齐得分:一种简单但难以超越的多模态对比学习数据选择方法

TL;DR通过提出一种简单而理论上有根据的指标 Variance Alignment Score (VAS),本研究解决了大规模视觉语言模型预训练中数据选择的核心问题,并设计了一种最大化 VAS 的新数据选择方法,实验证明 VAS 和 CLIP 分数的联合应用在嘈杂数据集 DataComp 上的 38 个评估集中平均提升了 1.3%,在高质量数据集 CC12M 上提升了 2.5%,此外,本研究还表明视觉特征在计算 VAS 时优于文本,并且相关的经典实验设计方法在这种情况下可能失败。