ICLRFeb, 2024

训练无关 CLIP 基于适应的难以超越的基准线

TL;DR对比语言 - 图像预训练(CLIP)已经因其非凡的零 - shot 能力而受到广泛关注。本研究聚焦于开发高效的微调方法来提升 CLIP 在下游任务中的性能,其中包括提示学习和适配器。然而,这些方法仍然需要额外的训练时间和计算资源,对于资源有限的设备来说并不理想。因此,我们重新审视了经典算法高斯判别分析(GDA),应用它于 CLIP 的下游分类中。通过利用贝叶斯公式,高斯判别分析假设每个类别的特征都服从具有相同协方差的高斯分布。我们将 GDA 与 CLIP 中的原始零 - shot 分类器进行集成,以融合视觉和文本模态的知识。对 17 个数据集进行广泛的实验证明,我们的方法在少样本分类、不平衡学习和超出分布泛化等方面超过或达到了与最先进方法相当的结果。此外,我们还将我们的方法扩展到基于新类别的推理和无监督学习,再次展示了其优越性。我们的代码在 https://github.com/mrflogs/ICLR24 上公开可用。