CLIP 中的协同作用和多样性：通过自适应骨干集成提高性能

May, 2024

CLIP 中的协同作用和多样性：通过自适应骨干集成提高性能

Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling

Cristian Rodriguez-Opazo, Ehsan Abbasnejad, Damien Teney, Edison Marrese-Taylor, Hamed Damirchi...

TL;DR对比性语言 - 图像预训练 (CLIP) 是一种重要的图像表示学习方法，本文探讨了不同的 CLIP 训练视觉骨干网络之间的差异，发现它们具有不同的表达方式、在数据集上具有不同的分类性能，以及对某些图像扰动的鲁棒性不同。研究结果表明，在每个测试样例中根据情况选择最佳骨干网络，分类准确性可能提高 40 个百分点以上。基于这一发现，我们提出了一种简单而强大的自适应集成多个骨干网络的方法，该方法可以使用较少数量的已标记样例来调整骨干网络的自适应组合。在大量数据集上，该方法比最佳单一骨干网络的准确性提高了 39.1%，远远超过传统的集成方法。

Abstract

contrastive language-image pretraining (clip) stands out as a prominent method for image representation learning. Various architectures, f

contrastive language-image pretraining clip image representation learning vision backbones adaptive ensembling

发现论文，激发创造

揭示 CLIP 中的骨干效应：探索表征的协同作用与变异

通过对比语言 - 图像预训练方法的不同背骨架结构的性能差异，发现正则化这些表示会导致显著的性能变化，进而提出了一种简单但有效的方法来结合多个背骨架的预测，并实现了显著的性能提升。

Dec, 2023

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

缩放 (下降) CLIP: 数据、架构和训练策略的全面分析

研究通过受限的计算预算缩小规模的对比性语言 - 图像预训练（CLIP）的性能，分析数据、架构和训练策略三个维度，证明高质量训练数据的重要性，指出较小的数据集在一定计算限制下优于较大数据集，并提供选择基于 CNN 架构或 ViT 架构进行 CLIP 训练的指导。同时比较四种 CLIP 训练策略，并表明在可用计算资源上选择训练策略的不同，最后发现只使用一半的训练数据，CLIP + 数据增强可以实现与 CLIP 相当的性能。本研究为有效训练和部署 CLIP 模型提供了实用见解，使其在各种应用中更加可行和经济实惠。

Apr, 2024

消除 CLIP 数据的神秘

以数据筛选为核心的对比语言 - 图像预训练及元数据筛选的方法 MetaCLIP，在多个标准基准测试中优于 CLIP 以 CommonCrawl 为数据源的结果，MetaCLIP 在零样本 ImageNet 分类中达到 70.8% 的准确率，并在 1B 数据的情况下保持相同的训练预算达到 72.4% 的准确率。

Sep, 2023

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

简单而有效：CLIP 嵌入用于具身人工智能

通过比较使用传统的 ImageNet 预训练模型和使用 CLIP 模型训练的模型，在实现与物理机器人和虚拟模拟任务相关的领域，我们展示并证明了在不加入神经复杂性、语义地图、辅助训练任务与深度图等的情况下使用 EmbCLIP 基线的高性能表现，从而证明了 CLIP 编码器对于情感取向环境下的物理对象导航与智能的有效性。

Nov, 2021

深入研究对比语言图像预训练（CLIP）的鲁棒性

该研究全面调查了 Contrastive Language-Image Pre-training (CLIP) 模型的安全目标，特别关注三个关键属性：对视觉因素变化的弹性，校准的不确定性估计以及检测异常输入的能力。研究揭示了 CLIP 模型的一些以前未知的见解，并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的 CLIP 模型的发展。

Feb, 2024

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

CLIP 模型是一个高效的在线终身学习者

在线终身学习 (OLL) 研究了从连续和非恒定数据流中学习的挑战。通过对视觉 - 语言模型 (如 Contrastive Language-Image Pretraining，CLIP) 进行参数高效调整 (PET) 的在线终身学习方法显示了对图像和文本之间的对称性的重要性，并且引入了 Symmetric Image-Text (SIT) 调整策略。通过梯度分析的实验证明了 SIT 的有效性，此外还评估了终身学习对 CLIP 的泛化能力的影响，并发现调整图像编码器对终身学习有益，而调整文本编码器有助于零样本学习。

May, 2024

HiCLIP: 基于分层感知注意力的对比语言 - 图像预训练

本文提出了用层级感知的注意力机制改进 CLIP 模型，以更好的捕捉图像和文本的高层语义，并在视觉识别和与视觉相关的下游任务中获得良好的结果。

Mar, 2023