基于传递的零样本和小样本 CLIP

CVPRApr, 2024

Transductive Zero-Shot and Few-Shot CLIP

Ségolène Martin, Yunshi Huang, Fereshteh Shakeri, Jean-Christophe Pesquet, Ismail Ben Ayed

TL;DR这篇论文研究了在 CLIP 等视觉语言模型的快速发展文献中被完全忽视的跨导式零样本和少样本 CLIP 分类挑战，其中推断是在一批未标记的查询样本上进行的，而不是独立处理每个实例。通过构建信息性的视觉文本概率特征，本文提出了一个基于最小化问题的分类优化目标，使用 Dirichlet 分布来建模每个类的数据概率分布。我们采用一种新颖的块主导次优化算法来解决这个最小化问题，该算法同时估计分布参数和类别分配。对 11 个数据集进行的大量数值实验证明了我们批处理推断方法的益处和功效。在测试批次包含 75 个样本的零样本任务中，我们的方法在 ImageNet 准确性方面相对于 CLIP 的零样本性能提高了近 20%。此外，在少样本设置中，我们超过了现有的最先进方法。代码可在此链接获得：this https URL

Abstract

transductive inference has been widely investigated in few-shot image classification, but completely overlooked in the recent, fast growing literature on adapting vision-langage models like CLIP. This paper addresses the →

transductive inference few-shot image classification adapting vision-language models transductive zero-shot block majorization-minimization algorithm

发现论文，激发创造

CLIP 模型是少样本学习器：基于 VQA 和视觉蕴涵的实证研究

本文实证表明，CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能，并提出了一种参数有效的微调策略，以提高少样本性能，最终取得了有竞争力的零样本 /few-shot 结果。

Mar, 2022

通过传导提升视觉语言模型

TransCLIP 是一种新颖且计算效率高的跨模态转导方法，通过集成文本编码知识和引导转导学习过程的 KL 散度惩罚来改善感知模型的性能。

Jun, 2024

带类别条件对比学习的传递式 CLIP

提出一种新的从头开始学习带有嘈杂标签的分类网络的框架：Transductive CLIP，包含条件对比学习机制和集成标签策略，能够有效地减少 CLIP 模型嘈杂标签的影响，实验结果表明其在多个基准数据集上显著优于其他最先进的方法。

Jun, 2022

多模态 CLIP 推理用于元 - 少样本图像分类

结合 CLIP 的文本和图像编码器的多模态方法，在广泛采用的基准测试上超越了最先进的元少样学习模型，而无需额外训练。

Mar, 2024

理解 CLIP 中的可迁移表征学习和零射击迁移

通过对 CLIP 的理论研究，我们证明了多模态学习的可转移表示学习，并分析了其在零样本学习和下游任务中的性能。在此基础上，我们提出了一种新的 CLIP 类型方法，在基准数据集上实现了比 CLIP 和其他最先进方法更好的性能。

Oct, 2023

无元学习的小样本分割：良好的瞬态推理是否足以胜任？

本文研究了在执行几次分割任务中进行推理的方式对性能产生了重要影响，并介绍了一种对查询图像进行转导推理的方法，通过优化包含交叉熵、Shannon 熵和 KL 散度规则的新损失函数，实现了具有竞争力的性能，尤其适用于 1-shot 场景以及基于不同数据集的领域偏移。

Dec, 2020

在少量样本学习中进行迭代视觉知识补全

本文提出了一种迭代式视觉知识完善（KCL）方法，通过正确利用未标记样本来补充视觉知识，以应对少样本学习中存在的分类偏差问题。经过多次迭代，收集更多样本以逐步稳定和完善视觉知识。实验结果表明，KCL 在少样本和零样本学习设置下作为即插即用模块具有有效性和高效性。

Apr, 2024

传导式少样本学习的现实评估

该研究探讨了在 few-shot 任务的查询集中引入任意类别分布（即类别不平衡）的影响，进一步提出一种基于 α-divergence 的损失函数，有效地处理了类分布变化，大幅提高了性能。

Apr, 2022

Zoom-shot: 快速高效的无监督零样本迁移 CLIP 到视觉编码器的多模态损失

通过 Zoom-shot 方法，利用多模态损失函数将 CLIP 潜空间与预训练视觉编码器的潜空间进行线性映射，从而在粗粒度和细粒度分类数据集上提升了现有的零样本能力，实现了下一代 VLMs 的开发。

Jan, 2024

CLIP 解码器：使用多模态 CLIP 对齐表示进行零样本多标签分类

多标签分类的零样本学习方法，通过引入 CLIP-Decoder 的多模态表示学习，在零样本多标签分类任务中表现出前沿结果，相较于现有方法在性能上提升了 3.9％，在广义零样本多标签分类任务中提升了近 2.3％。

Jun, 2024