深入研究对比语言图像预训练(CLIP)的鲁棒性
本文提出CLIP-benchmark,对CLIP及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。
Mar, 2022
通过实验研究,我们发现对比训练语言-图像模型的鲁棒性提高的主要因素是训练分布的多样性,而其他因素对鲁棒性几乎没有贡献。除了我们的实验结果,我们还介绍了ImageNet-Captions,这是带有来自Flickr的原始文本注释的ImageNet版本,以进一步进行语言-图像训练的受控实验。
May, 2022
通过挖掘生成模型的潜在空间,利用进化策略或随机梯度下降搜索,我们展示了可以最大化CLIP模型的置信度得分,适用于大量不同的提示,但对人类不可识别的欺骗主图像。我们研究了挖掘的欺骗主图像的属性,发现训练于少量图像标题的图像可能普遍适用于更多数量的语义相关标题。此外,我们评估了两种可能的缓解策略,并发现对欺骗主例子的脆弱性与对比式预训练多模态网络中的模态间隔密切相关。因此,我们提出减少CLIP和相关多模态方法中的模态间隔来缓解不在数据流形上攻击的脆弱性。
Jul, 2023
利用LP-CLIP技术通过引入一个线性探测层来提高CLIP的鲁棒性,该技术利用CLIP生成的伪标签以及自训练策略进行训练,无需注释数据,能够增强模型在真实场景中应对多种不确定性和挑战的能力,并在各种数据集上实现了SOTA结果
Sep, 2023
通过研究CLIP模型中两种形式的对齐并提出类别匹配边界来解决其性能不足的问题,成功提高了ImageNet上最差10个类别的准确率,无需手动优化或访问标记验证数据。
Oct, 2023
通过文本增强方法,不需要在对抗性示例上重新训练图像编码器,从而增强视觉-语言模型的稳健性,并且实验证明了在各种数据集上对预训练的CLIP模型的稳健性有显著改善。
Nov, 2023
探索在不使用任何组标注的情况下减轻CLIP对虚假特征依赖的方法,通过基于对比学习的轻量级表示校准方法对预训练CLIP进行微调,从而显著减少依赖并大大提升模型的泛化能力。
Mar, 2024
我们提出了一种理论上严谨的数据选择方法,通过保留图像和标题的交叉协方差,提高Contrastive Language-Image Pre-training模型的泛化性能,并在ConceptualCaptions3M和ConceptualCaptions12M上进行的实验证明,我们的子集相比其他基线方法,可在ImageNet和其变体上实现超过2.7倍和1.4倍的准确度,同时,在11个下游数据集中平均准确度达到其他基线方法的1.5倍。
Mar, 2024
研究通过受限的计算预算缩小规模的对比性语言-图像预训练(CLIP)的性能,分析数据、架构和训练策略三个维度,证明高质量训练数据的重要性,指出较小的数据集在一定计算限制下优于较大数据集,并提供选择基于CNN架构或ViT架构进行CLIP训练的指导。同时比较四种CLIP训练策略,并表明在可用计算资源上选择训练策略的不同,最后发现只使用一半的训练数据,CLIP+数据增强可以实现与CLIP相当的性能。本研究为有效训练和部署CLIP模型提供了实用见解,使其在各种应用中更加可行和经济实惠。
Apr, 2024
本研究针对CLIP模型在分类稳健性方面的评估,提出了一种更为全面的评估方法。通过分析视觉因素变化、信心不确定性、超出分布检测和3D意识等多个维度,发现模型架构对3D损坏的稳健性影响显著,同时识别出CLIP模型在预测时有形状偏倚的问题,从而为提升其稳健性与可靠性提供了重要指导。
Oct, 2024