WinCLIP:零 / 少样本异常分类和分割
使用预训练的基础模型进行零样本异常分割是一种有前途的方法,它可以在不需要昂贵的领域特定训练或微调的情况下实现有效的算法。我们通过扰动测试数据使用三种语义变换(有界角度旋转、有界饱和度变化和色调变化)来研究 WinCLIP [14] 零样本异常分割算法的性能。通过在每个样本的最坏情况扰动中进行聚合,我们经验性地测量了一个较低的性能下界,并发现平均性能在 ROC 曲线下面积和区域重叠曲线下面积方面下降了最高达 20% 和 40%。我们发现,无论模型架构或学习目标如何,这三种 CLIP 主干的性能都普遍降低,这表明需要进行仔细的性能评估。
May, 2024
提出了一种利用视觉 - 语言模型 CLIP 作为零样本异常检测的数据源的新方法,通过在滑动窗口方式下对图像的每个部分应用提示引导分类,通过生成文本嵌入来训练前馈神经网络,从 CLIP 的嵌入中提取正常和异常特征,实现了无需训练图像的无类别异类检测,取得了零样本设置下的最新性能。
Aug, 2023
本文介绍了我们参加 Visual Anomaly and Novelty Detection (VAND) 2023 Challenge 中的零样本检测方向的提交结果。我们在 WINCLIP 框架的基础上增强了系统的定位能力,同时整合了零样本分割模型。此外,我们还进行了前景实例分割,使模型集中在图像的相关部分,从而更好地识别小型或细微的偏差。我们的管道不需要外部数据或信息,可以直接应用于新的数据集。我们的团队 (Variance Vigilance Vanguard) 在 VAND 挑战赛的零样本检测中排名第三,样本 / 像素级别上在 VisA 数据集上实现了平均 F1-max 得分为 81.5/24.2。
Jun, 2023
本文介绍了用于工业视觉检测的一个方案,该方案使用 CLIP 模型和多个存储器来实现无标准参考图像的零射和少射跟踪,从而实现对大量产品类型的快速自适应,并在 VAND 2023 挑战赛中获得了一等奖。
May, 2023
通过引入双图增强 CLIP 方法,结合视觉 - 语言评分系统,对图像异常检测进行了增强,包括利用图像进行相互参考以增强推理过程的视觉环境,以及在测试时引入合成异常来提高定位能力。该方法充分利用了视觉 - 语言联合异常检测的潜力,并在各种数据集上展现了与当前最先进方法相媲美的性能。
May, 2024
使用 Contrastive Language-Image Pre-training (CLIP) 模型进行零样本异常检测,通过学习自然语言监督下的视觉表示,构建文本提示与全局图像级别表示之间的对应关系,采用训练自由的价值关注机制提取 CLIP 的内在局部标记以进行精确定位,设计一个统一的领域感知对比状态提示模板,通过测试时的自适应机制进一步优化异常定位结果。
Aug, 2023
利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架,结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块,以及 CGL 损失,来提高 WSSS 的效率和性能。
Dec, 2022
本文实证表明,CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能,并提出了一种参数有效的微调策略,以提高少样本性能,最终取得了有竞争力的零样本 /few-shot 结果。
Mar, 2022
AnomalyCLIP 通过学习无关物体的文本提示来捕捉图像中的通常和异常,从而实现了对高度多样的物体数据集进行广义正常性和异常性识别的零样本卓越性能。
Oct, 2023
在医学决策领域,精确的医学成像异常检测在帮助临床医生方面起着关键作用。本文首先侧重于医学图像异常检测在少样本情景下的任务,这对于数据采集和注释都非常昂贵的医学领域至关重要。我们提出了一种创新的方法,MediCLIP,通过自监督微调,将 CLIP 模型适应于少样本医学图像异常检测。当仅提供少量正常医学图像时,MediCLIP 相比其他方法在异常检测和定位方面实现了最先进的性能。三个不同的医学异常检测任务上的大量实验证明了我们方法的优越性。
May, 2024