CLIP-KD:CLIP 模型蒸馏的实证研究
通过利用嵌入作为教师,我们扩展了 CLIP 用于高效进行知识蒸馏,初步结果表明,使用嵌入进行基于 CLIP 的知识蒸馏可以在使用少至 9 倍内存和 8 倍训练时间的情况下优于完整规模的知识蒸馏。
Apr, 2024
利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性,该技术利用 CLIP 生成的伪标签以及自训练策略进行训练,无需注释数据,能够增强模型在真实场景中应对多种不确定性和挑战的能力,并在各种数据集上实现了 SOTA 结果
Sep, 2023
本研究提出了一项名为 CLIP-TD 的方法,对视觉 - 语言任务进行有针对性的蒸馏,以适应每个实例自适应选择的标记。 经过实验证明,我们的 CLIP-TD 在视觉常识推理,视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益,并在这些任务上取得了最先进的性能。
Jan, 2022
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
本文探讨了如何将知识蒸馏技术扩展到双模态模型情况,并提出了一个全连接知识交互图(Cona)技术,用于跨模态预训练蒸馏,实验证明该方法具有显著的效果。
May, 2023
在这篇论文中,我们介绍了一种无监督域提示蒸馏框架,通过使用未标记的领域图像进行提示驱动的模仿,旨在将更大的教师模型的知识转移给轻量级目标模型。
Mar, 2024
该文介绍了一个名为 MaskCLIP 的简单而又有效的框架,将一种新提出的掩码自蒸馏方法融入了对比语言 - 图像预训练中。该框架主要利用掩码自蒸馏方法学习局部信息传递,这对文本相关表示的对比学习起到补充作用,并且一定程度上能够从自然语言中得到间接监督。同时,在文本分支中也引入了局部语义监督来提高预训练性能,这个框架在不同的任务中取得了很好的效果。
Aug, 2022
本文提出了一种新颖的跨模态蒸馏方法,称为 TinyCLIP,用于大规模语言 - 图像预训练模型,通过亲和仿真和权重继承两种核心技术,在视觉 - 语言亲和空间中模拟模式之间的交互,将预训练模型的权重传递给学生模型以提高蒸馏效率,并通过多阶段渐进蒸馏来减轻在极端压缩过程中的信息丢失,实验证明了 TinyCLIP 的有效性,降低了预训练 CLIP ViT-B/32 模型大小 50%,同时保持了可比的零样本性能。
Sep, 2023
以数据筛选为核心的对比语言 - 图像预训练及元数据筛选的方法 MetaCLIP,在多个标准基准测试中优于 CLIP 以 CommonCrawl 为数据源的结果,MetaCLIP 在零样本 ImageNet 分类中达到 70.8% 的准确率,并在 1B 数据的情况下保持相同的训练预算达到 72.4% 的准确率。
Sep, 2023
本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法,Data efficient CLIP (DeCLIP),通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征,在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率,并在转化到下游任务时优于常规 CLIP 模型。
Oct, 2021