CVPRApr, 2024

基于传递的零样本和小样本 CLIP

TL;DR这篇论文研究了在 CLIP 等视觉语言模型的快速发展文献中被完全忽视的跨导式零样本和少样本 CLIP 分类挑战,其中推断是在一批未标记的查询样本上进行的,而不是独立处理每个实例。通过构建信息性的视觉文本概率特征,本文提出了一个基于最小化问题的分类优化目标,使用 Dirichlet 分布来建模每个类的数据概率分布。我们采用一种新颖的块主导次优化算法来解决这个最小化问题,该算法同时估计分布参数和类别分配。对 11 个数据集进行的大量数值实验证明了我们批处理推断方法的益处和功效。在测试批次包含 75 个样本的零样本任务中,我们的方法在 ImageNet 准确性方面相对于 CLIP 的零样本性能提高了近 20%。此外,在少样本设置中,我们超过了现有的最先进方法。代码可在此链接获得:this https URL