使用 CLIP 增强 CLIP:探索有限标签提示微调的伪标签方法
通过在 CLIP 训练中结合任务特定的视觉模型,利用伪标签来改进其视觉表示,该简单的设置在不妨碍现有性能的前提下,显著提高了不同视觉任务的效果。
Oct, 2023
视觉语言模型通过大规模训练数据学习了一种通用的文本 - 图像嵌入。通过少量样本的提示调整,可以将视觉语言模型适应到新的分类任务中。我们发现,这种提示调整过程对标签噪声非常稳健,且具有鲁棒性。
Jul, 2023
通过候选伪标签学习方法(CPL)在下游任务中使用适当的候选伪标签细调视觉 - 语言模型(VLMs),以提高 VLMs 在大量无标签数据上的 True 标签包含能力和类别平衡实例选择效果。
Jun, 2024
本文提出了一种无监督提示学习(UPL)方法,以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示,在 ImageNet 以及其他 10 个数据集上,与原始 CLIP 相比,UPL 具有更优秀的传输表现,并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。
Apr, 2022
当前,低光条件给机器认知带来了重大挑战。本文提出了一种利用零参考低光增强方法改善下游任务模型性能的策略,通过利用丰富的视觉 - 语言 CLIP 先验来改进零参考低光增强方法,避免了对配对或非配对正常光数据的收集工作,并证明了不需要正常光数据的学习提示可以改善图像对比度,减少过度增强和噪声过放大。另外,通过零样本开放式词汇分类利用 CLIP 模型进行语义指导,优化低光增强以提高任务性能而非人类视觉感知。通过大量实验结果显示,所提出的方法在各种数据集上都取得了一致的改进效果,并将其与最先进的方法进行比较,展示了在各种低光数据集上的有利结果。
May, 2024
提出了一种无需训练数据的多标签图像识别新框架,利用预训练大型语言模型(LLM)的知识学习提示,使预训练的视觉 - 语言模型(VLM)如 CLIP 适应多标签分类。通过向 LLM 提问获取关于对象的特性和背景的综合知识,为学习提示提供宝贵的文本描述。然后,通过考虑多标签依赖性,提出了一种层次化的提示学习方法,在对象具有相似属性或更有可能共现时,共享特定类别提示标记的子集。由于 CLIP 在视觉和语义上具有显著的对准性,从文本描述学习到的层次化提示被应用于推理过程中的图像分类。我们的框架为探索多个预训练模型之间的协同作用提供了一种新途径。在三个公共数据集(MS-COCO、VOC2007 和 NUS-WIDE)上进行的大量实验证明,我们的方法比现有方法取得更好的结果,尤其是在 MS-COCO 上的零样本多标签识别方法的 mAP 上超过 4.7%。
Mar, 2024
本文提出了一种基于生成式方法的模型适配方案 (SHIP),使用文本和图像信息进行训练的预训练模型 (CLIP) 可以在没有标签的类别上表现出更好的效果。在对基础数据集到新的数据集的泛化、跨数据集的迁移学习和广义的零样本学习等方面进行了广泛实验,证明了该方法的优越性
Jul, 2023
這項研究旨在將大規模預先訓練的視覺語言模型,如對比語言 - 圖像預訓練(CLIP),適應各種監督設置下物體再識別(Re-ID)的表現提升。在本研究中,我們首先分析了 CLIP-ReID 中 prompt learning 的作用並確認了其限制。基於我們的調查,我們提出了一種簡單而有效的方法,通過使用原型對比學習(PCL)損失直接微調 CLIP 的圖像編碼器,從而消除了 prompt learning 的需要。在人物和車輛 Re-ID 數據集上的實驗結果證明了我們的方法與 CLIP-ReID 的競爭力。此外,我們將基於 PCL 的 CLIP 微調方法擴展到無監督場景,達到了最新的表現。
Oct, 2023
本研究探讨了一种新颖的 “预训练标注 - 弱监督学习” 范式,通过在图像分类任务中基于 CLIP 使用多个提示模板对图像样本进行标注,进而获得多个候选标签以形成含噪部分标签的数据集,并设计了一种协作一致性正则化算法来解决这个问题。实验表明,该方法在无需额外标签信息的情况下显著优于零样本推理,优于其他弱监督学习和少样本微调方法,并获得了更小的模型。
May, 2024
提出了一种半监督学习方法 S-CLIP,利用额外的非配对图像数据为基于对比学习的语言图像预训练模型 CLIP 训练,采用两个伪标签策略,分别针对对比学习和语言模态,能够显著增强 CLIP 的训练,取得了在遥感、时尚、科学图像和漫画等多个领域中的令人瞩目的表现。
May, 2023