CLIP-KD：CLIP 模型蒸馏的实证研究

Jul, 2023

CLIP-KD: An Empirical Study of Distilling CLIP Models

Chuanguang Yang, Zhulin An, Libo Huang, Junyu Bi, Xinqiang Yu...

TL;DR通过使用关系、特征、梯度和对比范式等多种蒸馏策略对基于大型教师 CLIP 模型的小型 CLIP 模型进行监督，本研究在零样本 ImageNet 分类和跨模态检索基准上一致提升了学生 CLIP 模型的性能，提供了重要的 CLIP 蒸馏研究基准。

Abstract

clip has become a promising language-supervised visual pre-training framework and achieves excellent performance over a wide range of tasks. This paper aims to distill small →

clip language-supervised visual pre-training distillation strategies feature mimicry clip distillation

发现论文，激发创造

CLIP-Embed-KD: 以嵌入向量作为教师的计算高效知识蒸馏

通过利用嵌入作为教师，我们扩展了 CLIP 用于高效进行知识蒸馏，初步结果表明，使用嵌入进行基于 CLIP 的知识蒸馏可以在使用少至 9 倍内存和 8 倍训练时间的情况下优于完整规模的知识蒸馏。

Apr, 2024

使用知识蒸馏和自训练提高 CLIP 的鲁棒性

利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性，该技术利用 CLIP 生成的伪标签以及自训练策略进行训练，无需注释数据，能够增强模型在真实场景中应对多种不确定性和挑战的能力，并在各种数据集上实现了 SOTA 结果

Sep, 2023

CLIP-TD：针对视觉语言任务的 CLIP 目标蒸馏

本研究提出了一项名为 CLIP-TD 的方法，对视觉 - 语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的 CLIP-TD 在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Jan, 2022

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

ConaCLIP：探索全连接知识交互图的蒸馏，用于轻量级文本图像检索

本文探讨了如何将知识蒸馏技术扩展到双模态模型情况，并提出了一个全连接知识交互图（Cona）技术，用于跨模态预训练蒸馏，实验证明该方法具有显著的效果。

May, 2023

PromptKD: 无监督的视觉语言模型提示蒸馏

在这篇论文中，我们介绍了一种无监督域提示蒸馏框架，通过使用未标记的领域图像进行提示驱动的模仿，旨在将更大的教师模型的知识转移给轻量级目标模型。

Mar, 2024

MaskCLIP：屏蔽自蒸馏提升对比度语言 - 图片预训练

该文介绍了一个名为 MaskCLIP 的简单而又有效的框架，将一种新提出的掩码自蒸馏方法融入了对比语言 - 图像预训练中。该框架主要利用掩码自蒸馏方法学习局部信息传递，这对文本相关表示的对比学习起到补充作用，并且一定程度上能够从自然语言中得到间接监督。同时，在文本分支中也引入了局部语义监督来提高预训练性能，这个框架在不同的任务中取得了很好的效果。

Aug, 2022

TinyCLIP: CLIP 蒸馏通过亲和力模仿和权重继承

本文提出了一种新颖的跨模态蒸馏方法，称为 TinyCLIP，用于大规模语言 - 图像预训练模型，通过亲和仿真和权重继承两种核心技术，在视觉 - 语言亲和空间中模拟模式之间的交互，将预训练模型的权重传递给学生模型以提高蒸馏效率，并通过多阶段渐进蒸馏来减轻在极端压缩过程中的信息丢失，实验证明了 TinyCLIP 的有效性，降低了预训练 CLIP ViT-B/32 模型大小 50%，同时保持了可比的零样本性能。

Sep, 2023

消除 CLIP 数据的神秘

以数据筛选为核心的对比语言 - 图像预训练及元数据筛选的方法 MetaCLIP，在多个标准基准测试中优于 CLIP 以 CommonCrawl 为数据源的结果，MetaCLIP 在零样本 ImageNet 分类中达到 70.8% 的准确率，并在 1B 数据的情况下保持相同的训练预算达到 72.4% 的准确率。

Sep, 2023

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率，并在转化到下游任务时优于常规 CLIP 模型。

Oct, 2021