基于 Transfer CLIP 的通用图像去噪

CVPRMar, 2024

Transfer CLIP for Generalizable Image Denoising

Jun Cheng, Dong Liang, Shan Tan

TL;DR本文提出了一种利用 CLIP 模型来提高图像去噪的对称编码器 - 解码器网络，并通过渐进特征增强策略来改善解码器的鲁棒性，实验证明该方法具有优越的泛化能力。

Abstract

image denoising is a fundamental task in computer vision. While prevailing deep learning-based supervised and self-supervised methods have excelled in eliminating in-distribution noise, their susceptibility to ou

image denoising deep learning contrastive language-image pre-training robustness encoder-decoder network

发现论文，激发创造

对比语言 - 图像预训练（CLIP）模型是强大的超出分布检测器

该文章从预训练功能提取器、视觉超出分布（OOD）检测、语言图像预训练模型、对抗性操纵的 OOD 图像和视觉异常检测等方面进行了全面实验研究，证明了使用最近邻特征相似度作为 OOD 检测得分的对比语言 - 图像预训练模型实现了最先进的无监督 OOD 性能，同时可以在无内部分布微调的情况下获得有监督的最先进 OOD 检测性能，并指出需要基于实验研究建立新的视觉异常检测基准。

Mar, 2023

使用知识蒸馏和自训练提高 CLIP 的鲁棒性

利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性，该技术利用 CLIP 生成的伪标签以及自训练策略进行训练，无需注释数据，能够增强模型在真实场景中应对多种不确定性和挑战的能力，并在各种数据集上实现了 SOTA 结果

Sep, 2023

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

深入研究对比语言图像预训练（CLIP）的鲁棒性

该研究全面调查了 Contrastive Language-Image Pre-training (CLIP) 模型的安全目标，特别关注三个关键属性：对视觉因素变化的弹性，校准的不确定性估计以及检测异常输入的能力。研究揭示了 CLIP 模型的一些以前未知的见解，并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的 CLIP 模型的发展。

Feb, 2024

带类别条件对比学习的传递式 CLIP

提出一种新的从头开始学习带有嘈杂标签的分类网络的框架：Transductive CLIP，包含条件对比学习机制和集成标签策略，能够有效地减少 CLIP 模型嘈杂标签的影响，实验结果表明其在多个基准数据集上显著优于其他最先进的方法。

Jun, 2022

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率，并在转化到下游任务时优于常规 CLIP 模型。

Oct, 2021

无需进一步训练即可将 CLIP 用于短语定位

利用对比语言 - 视觉模型 CLIP，我们可以实现无需人工注释或额外训练的短语定位方法，其零样本短语定位性能优于现有无训练方法，并在某些情况下甚至超过了有监督的方法。

Apr, 2022

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024

控制视觉 - 语言模型用于通用图像修复

我们提出了一种降级感知的视觉 - 语言模型（DA-CLIP），用于将预训练的视觉 - 语言模型应用于低级视觉任务，作为通用的图像恢复框架，通过集成嵌入到图像恢复网络中并进行交叉注意力，使模型能够学习高保真度的图像重建。

Oct, 2023

CLIP-DINOiser: 教授 CLIP 一些 DINO 的技巧

我们提出了一种零样本开放词汇语义分割方法，无需任何注释，通过从自监督特征中提取出的定位先验来局部改进密集的 MaskCLIP 特征，从而显著提升 MaskCLIP 的性能并产生平滑的输出。

Dec, 2023