Jul, 2023

T-MARS:绕过文本特征学习以改进视觉表示

TL;DR基于我们观察到 LAION 图像中将近 40% 的图像包含与标题有显著重叠的文本,我们提出了一种新的最先进的数据过滤方法,T-MARS(文本遮罩和重新评分),通过先遮罩文本,然后过滤掉低 CLIP 相似性分数的遮罩图像,过滤掉只有文本占主导地位的图像对。实验结果表明,T-MARS 在 ImageNet 上超过 DataComp(数据过滤基准)的最高排名方法 6.5%,在 VTAB 上超过 4.7%。此外,我们对不同数据池大小从 2M 到 64M 的系统评估显示,T-MARS 随着数据和计算的指数级扩大而线性增加的准确性优势。