May, 2023

少即是多:去除文本区域提高 CLIP 训练效率和鲁棒性

TL;DR本文介绍两种有效方法来提高 CLIP 模型的效率和鲁棒性:(1)在维持相同优化步数的情况下增加训练数据集,(2)过滤包含图像中文本区域的样本,从而在像 ImageNet 和 CoCo 公共基准测试中显著提高分类和检索精度。过滤掉包含文本区域的图像还可保护模型免受排版攻击。通过构建名为 ImageNet with Adversarial Text Regions(ImageNet-Attr)的新数据集,验证了这一点。我们的基于过滤的 CLIP 模型在 top-1 精度方面表现出 68.78%的性能,胜过以前的所有模型,其精度均低于 50%。