基于 Transfer CLIP 的通用图像去噪
该文章从预训练功能提取器、视觉超出分布(OOD)检测、语言图像预训练模型、对抗性操纵的 OOD 图像和视觉异常检测等方面进行了全面实验研究,证明了使用最近邻特征相似度作为 OOD 检测得分的对比语言 - 图像预训练模型实现了最先进的无监督 OOD 性能,同时可以在无内部分布微调的情况下获得有监督的最先进 OOD 检测性能,并指出需要基于实验研究建立新的视觉异常检测基准。
Mar, 2023
利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性,该技术利用 CLIP 生成的伪标签以及自训练策略进行训练,无需注释数据,能够增强模型在真实场景中应对多种不确定性和挑战的能力,并在各种数据集上实现了 SOTA 结果
Sep, 2023
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
该研究全面调查了 Contrastive Language-Image Pre-training (CLIP) 模型的安全目标,特别关注三个关键属性:对视觉因素变化的弹性,校准的不确定性估计以及检测异常输入的能力。研究揭示了 CLIP 模型的一些以前未知的见解,并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的 CLIP 模型的发展。
Feb, 2024
提出一种新的从头开始学习带有嘈杂标签的分类网络的框架:Transductive CLIP,包含条件对比学习机制和集成标签策略,能够有效地减少 CLIP 模型嘈杂标签的影响,实验结果表明其在多个基准数据集上显著优于其他最先进的方法。
Jun, 2022
本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法,Data efficient CLIP (DeCLIP),通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征,在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率,并在转化到下游任务时优于常规 CLIP 模型。
Oct, 2021
利用对比语言 - 视觉模型 CLIP,我们可以实现无需人工注释或额外训练的短语定位方法,其零样本短语定位性能优于现有无训练方法,并在某些情况下甚至超过了有监督的方法。
Apr, 2022
我们提出了一种理论上严谨的数据选择方法,通过保留图像和标题的交叉协方差,提高 Contrastive Language-Image Pre-training 模型的泛化性能,并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明,我们的子集相比其他基线方法,可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度,同时,在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。
Mar, 2024
我们提出了一种降级感知的视觉 - 语言模型(DA-CLIP),用于将预训练的视觉 - 语言模型应用于低级视觉任务,作为通用的图像恢复框架,通过集成嵌入到图像恢复网络中并进行交叉注意力,使模型能够学习高保真度的图像重建。
Oct, 2023
我们提出了一种零样本开放词汇语义分割方法,无需任何注释,通过从自监督特征中提取出的定位先验来局部改进密集的 MaskCLIP 特征,从而显著提升 MaskCLIP 的性能并产生平滑的输出。
Dec, 2023