揭示 CLIP 中的骨干效应：探索表征的协同作用与变异

Dec, 2023

揭示 CLIP 中的骨干效应：探索表征的协同作用与变异

Unveiling Backbone Effects in CLIP: Exploring Representational Synergies and Variances

Cristian Rodriguez-Opazo, Edison Marrese-Taylor, Ehsan Abbasnejad, Hamed Damirchi, Ignacio M. Jara...

TL;DR通过对比语言 - 图像预训练方法的不同背骨架结构的性能差异，发现正则化这些表示会导致显著的性能变化，进而提出了一种简单但有效的方法来结合多个背骨架的预测，并实现了显著的性能提升。

Abstract

contrastive language-image pretraining (CLIP) stands out as a prominent method for image representation learning. Various neural architectures

contrastive language-image pretraining image representation learning neural architectures backbone predictions performance variations

发现论文，激发创造

CLIP 中的协同作用和多样性：通过自适应骨干集成提高性能

对比性语言 - 图像预训练 (CLIP) 是一种重要的图像表示学习方法，本文探讨了不同的 CLIP 训练视觉骨干网络之间的差异，发现它们具有不同的表达方式、在数据集上具有不同的分类性能，以及对某些图像扰动的鲁棒性不同。研究结果表明，在每个测试样例中根据情况选择最佳骨干网络，分类准确性可能提高 40 个百分点以上。基于这一发现，我们提出了一种简单而强大的自适应集成多个骨干网络的方法，该方法可以使用较少数量的已标记样例来调整骨干网络的自适应组合。在大量数据集上，该方法比最佳单一骨干网络的准确性提高了 39.1%，远远超过传统的集成方法。

May, 2024

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

缩放 (下降) CLIP: 数据、架构和训练策略的全面分析

研究通过受限的计算预算缩小规模的对比性语言 - 图像预训练（CLIP）的性能，分析数据、架构和训练策略三个维度，证明高质量训练数据的重要性，指出较小的数据集在一定计算限制下优于较大数据集，并提供选择基于 CNN 架构或 ViT 架构进行 CLIP 训练的指导。同时比较四种 CLIP 训练策略，并表明在可用计算资源上选择训练策略的不同，最后发现只使用一半的训练数据，CLIP + 数据增强可以实现与 CLIP 相当的性能。本研究为有效训练和部署 CLIP 模型提供了实用见解，使其在各种应用中更加可行和经济实惠。

Apr, 2024

简单而有效：CLIP 嵌入用于具身人工智能

通过比较使用传统的 ImageNet 预训练模型和使用 CLIP 模型训练的模型，在实现与物理机器人和虚拟模拟任务相关的领域，我们展示并证明了在不加入神经复杂性、语义地图、辅助训练任务与深度图等的情况下使用 EmbCLIP 基线的高性能表现，从而证明了 CLIP 编码器对于情感取向环境下的物理对象导航与智能的有效性。

Nov, 2021

深入研究对比语言图像预训练（CLIP）的鲁棒性

该研究全面调查了 Contrastive Language-Image Pre-training (CLIP) 模型的安全目标，特别关注三个关键属性：对视觉因素变化的弹性，校准的不确定性估计以及检测异常输入的能力。研究揭示了 CLIP 模型的一些以前未知的见解，并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的 CLIP 模型的发展。

Feb, 2024

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

MobileCLIP: 多模态加强训练的快速图像 - 文本模型

在这项研究中，我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列，通过一种名为多模态增强训练的新颖且高效的训练方法，利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移，将额外的知识存储在增强数据集中而避免了训练时计算开销，从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。

Nov, 2023

RWKV-CLIP：一个稳健的视觉 - 语言表示学习器

通过扩展数据集和模型架构，该研究进一步探索了具有对比语言 - 图像预训练（CLIP）的视觉语言任务的性能，在处理来自网站的图像 - 文本对时。通过引入多样化的描述生成框架，该研究提出了 RWKV-CLIP，其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集，证明了 RWKV-CLIP 是一个强大而有效的视觉语言表征学习器，在线性探测、零样例分类和零样例图像 - 文本检索等多个下游任务中实现了最先进的性能。

Jun, 2024

CLIP 手术技术用于开放式任务的解释性增强

CLIP（Contrastive Language-Image Pre-training）是一种强大的多模态视觉模型，该论文提出了一种 CLIP Surgery 方法，可以在不降低性能的情况下提升 CLIP 的解释性和性能，并在开放词汇任务中获得了显着的提高，如 NUS-Wide 多标签识别上得到了 4.41% 的平均精度提升，Cityscapes 开放词汇语义分割任务上的 mIoU 也超过了现有方法的 8.74%。

Apr, 2023

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024