Apr, 2024
CatLIP: 在 Web 规模的图文数据上 2.7 倍速度预训练的 CLIP 级别视觉识别准确性
CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data
Sachin Mehta, Maxwell Horton, Fartash Faghri, Mohammad Hossein Sekhavat, Mahyar Najibi...
TL;DR通过对网络规模的图像文本数据进行弱监督预训练,本论文提出了一种消除对比损失中成对图像和文本相似性计算的需要的方法,在训练速度上取得了显著的 2.7 倍加速。通过广泛的实验证明,该方法在各种视觉任务中具有高质量的表征。