训练无关CLIP基于适应的难以超越的基准线

Feb, 2024

训练无关CLIP基于适应的难以超越的基准线

A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation

Zhengbo Wang, Jian Liang, Lijun Sheng, Ran He, Zilei Wang...

TL;DR对比语言-图像预训练（CLIP）已经因其非凡的零-shot能力而受到广泛关注。本研究聚焦于开发高效的微调方法来提升CLIP在下游任务中的性能，其中包括提示学习和适配器。然而，这些方法仍然需要额外的训练时间和计算资源，对于资源有限的设备来说并不理想。因此，我们重新审视了经典算法高斯判别分析（GDA），应用它于CLIP的下游分类中。通过利用贝叶斯公式，高斯判别分析假设每个类别的特征都服从具有相同协方差的高斯分布。我们将GDA与CLIP中的原始零-shot分类器进行集成，以融合视觉和文本模态的知识。对17个数据集进行广泛的实验证明，我们的方法在少样本分类、不平衡学习和超出分布泛化等方面超过或达到了与最先进方法相当的结果。此外，我们还将我们的方法扩展到基于新类别的推理和无监督学习，再次展示了其优越性。我们的代码在https://github.com/mrflogs/ICLR24上公开可用。

Abstract

contrastive language-image pretraining (clip) has gained popularity for its remarkable zero-shot capacity. Recent research has focused on developing efficient →

发现论文，激发创造

CLIP-Adapter: 特征适配器提升视觉语言模型

本文提出一种新的视觉语言模型fine-tuning方式——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于context optimization

Oct, 2021

民主化对比语言-图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出CLIP-benchmark，对CLIP及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。

Mar, 2022

Tip-Adapter: 无需训练的适应 CLIP 用于少样本分类

本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter，来有效地增强 Contrastive Vision-Language Pre-training（CLIP）的适应能力，为少样本学习提供了一个计算资源高效的选择。实验证明，Tip-Adapter 在 11 个数据集上均有突出表现，并可以通过少量的模型微调达到 ImageNet 上的最优。

Jul, 2022

CALIP: 零参数关注下的零样本增强CLIP

本文提出了一种名为CALIP的方法，通过一个无需参数的关注模块，在不增加额外的训练开销和数据需求的情况下提高Contrastive Language-Image Pre-training的零样本性能。

Sep, 2022

利用合成提示来提升CLIP的零样本泛化能力

本文提出了一种基于生成式方法的模型适配方案(SHIP)，使用文本和图像信息进行训练的预训练模型(CLIP)可以在没有标签的类别上表现出更好的效果。在对基础数据集到新的数据集的泛化、跨数据集的迁移学习和广义的零样本学习等方面进行了广泛实验，证明了该方法的优越性

Jul, 2023

研究 CLIP 模型的限制：最差表现的分类

通过研究CLIP模型中两种形式的对齐并提出类别匹配边界来解决其性能不足的问题，成功提高了ImageNet上最差10个类别的准确率，无需手动优化或访问标记验证数据。

Oct, 2023

高效对比语言-图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高Contrastive Language-Image Pre-training模型的泛化性能，并在ConceptualCaptions3M和ConceptualCaptions12M上进行的实验证明，我们的子集相比其他基线方法，可在ImageNet和其变体上实现超过2.7倍和1.4倍的准确度，同时，在11个下游数据集中平均准确度达到其他基线方法的1.5倍。

Mar, 2024

CLIPArTT: 测试时基于新领域的CLIP轻量级适应

通过在推理过程中自动构建文本提示并使用其作为文本监督，CLIPArTT方法在不需要额外培训的情况下，通过独特的、最小侵入性的文本提示调优过程，使预训练视觉-语言模型在各种数据集和环境中动态提升性能并改善适应性。

May, 2024

超越数据不平衡的泛化：对CLIP进行可控研究以获取可转移的洞见

研究发现CLIP预训练在面对数据不平衡时相比于监督学习表现出明显的鲁棒性和学习泛化能力。通过对各种潜在因素的控制实验研究，揭示了CLIP预训练的伪任务形成了一个动态分类问题，在训练中只包含部分类别，从而消除了主导类别的偏差且隐含地实现了学习信号的平衡。此外，CLIP的鲁棒性和区分能力随着更具描述性的语言监督、更大规模的数据以及更广泛的开放世界概念的使用而提高，而这些在监督学习中是无法实现的。该研究不仅揭示了CLIP在数据不平衡情况下的泛化机制，还为研究界提供了有价值的启示。通过监督学习和自监督学习验证了这些发现，使得在不平衡数据上训练的模型能够在多样化的识别任务上达到CLIP级别的性能。

May, 2024

大规模视觉语言适配器的稳健校准

本文主要讨论了基于CLIP模型的调整中的关键问题——校准不准确，特别是在分布发生偏移的场景下的样本，这在现有的关于CLIP调整的文献中被忽视了。我们在实证中证明了常见的CLIP调整方法（如Adapters，Prompt Learning和Test-Time Adaptation）在分布漂移存在的情况下，极大地降低了零预测基线的校准能力。我们确定了逻辑概率范围的增加是导致CLIP调整方法校准不准确的根本原因，这与以前关于校准完全监督模型的工作相反。基于这些观察，我们提出了一个简单且模型无关的解决方案来减轻校准不准确，即将每个样本的逻辑概率范围缩放到其零预测逻辑概率上。我们尝试了三种不同的方法来实现这一目标，这些方法可以在调整过程中集成或直接在推理过程中使用。在流行的分布外分类基准实验中，全面的实验证明了所提方法在减轻校准不准确方面的有效性，同时保持有区分性能，在这种越来越流行的方法的三个类别中，改进是一致的。代码公开可用于：this https URL

Jul, 2024