候选伪标签学习:通过无标签数据及时调整以增强视觉 - 语言模型
研究使用 CLIP 中的零样本伪标签作为监督来增强视觉 - 语言模型,发现半监督、零样本迁移和无监督学习可以视作优化相同损失函数的统一视图,进而开发出全面的跨学习范式适用的培训策略,同时找到未探索的提示调整策略可以通过迭代滴精细伪标签不断提高性能。
Jun, 2023
通过利用预训练的视觉语言模型,以无人工注释的方式进行病理图像分类,通过众包伪标签技术获得伪标签并通过一致性筛选以优化准确性。
Mar, 2024
在 Class Incremental Object Detection(CIOD)领域,解决模型如何像人类一样持续学习的问题是一个重大挑战。为了克服传统的伪标签方法在多场景增量学习中遗忘过去知识的问题,该研究介绍了一种名为 Vision-Language Model assisted Pseudo-Labeling(VLM-PL)的新方法。通过将图像和文本特征组合设计的提示模板生成自定义查询,借助视觉 - 语言模型(VLM),VLM-PL 技术能够验证伪标签的正确性,而无需额外的模型训练。通过将精细化的伪标签和真实标签整合,并结合新旧知识,VLM-PL 在 Pascal VOC 和 MS COCO 数据集上进行了广泛实验,不仅在多场景问题上表现出色,还在双场景问题上取得了最先进的结果。
Mar, 2024
提出了一种无需训练数据的多标签图像识别新框架,利用预训练大型语言模型(LLM)的知识学习提示,使预训练的视觉 - 语言模型(VLM)如 CLIP 适应多标签分类。通过向 LLM 提问获取关于对象的特性和背景的综合知识,为学习提示提供宝贵的文本描述。然后,通过考虑多标签依赖性,提出了一种层次化的提示学习方法,在对象具有相似属性或更有可能共现时,共享特定类别提示标记的子集。由于 CLIP 在视觉和语义上具有显著的对准性,从文本描述学习到的层次化提示被应用于推理过程中的图像分类。我们的框架为探索多个预训练模型之间的协同作用提供了一种新途径。在三个公共数据集(MS-COCO、VOC2007 和 NUS-WIDE)上进行的大量实验证明,我们的方法比现有方法取得更好的结果,尤其是在 MS-COCO 上的零样本多标签识别方法的 mAP 上超过 4.7%。
Mar, 2024
基于现有观察,我们提出了一个名为 PCB 的新型主动学习框架,对预训练视觉语言模型(VLMs)进行自适应,以解决标签获取成本高的问题,并在七个真实数据集上实验证明,在性能上超越了传统的主动学习和随机取样方法。
Nov, 2023
从大量的预先训练图像 - 语言模型 (VLMs) 调整到下游任务的适应性最好的范式变成了即刻学习。我们提出了无需训练的无监督提示 (TFUP),它在无需训练或标记的情况下最大程度地保留了内在的表现能力,并通过将预测概率与基于相似度的预测概率之间的残差连接进行增强。然后,我们使用实例置信度和原型分数来选择代表性样本,这些样本用于定制训练自由推理的可靠特征缓存模型 (FCM)。我们设计了一种多级相似度度量 (MSM),它考虑了特征级和语义级相似度,以计算每个测试图像与缓存样本之间的距离,作为相应缓存标签的权重,进而生成基于相似度的预测概率。通过这种方式,TFUP 在多个分类数据集上实现了令人惊讶的性能,甚至超过了基于训练的方法。在我们的 TFUP 基础上,我们提出了一个训练为基础的方法 (TFUP-T) 来进一步提升适应性能力。除了标准的交叉熵损失外,TFUP-T 还采用了额外的边际分布熵损失,从全局角度约束模型。与无监督和少样本适应方法在多个基准测试中相比,我们的 TFUP-T 实现了新的最先进的分类性能。特别是,在最具挑战的 Domain-Net 数据集上,TFUP-T 将 POUF 的分类准确度提高了 3.3%。
Apr, 2024
该研究提出了一种名为 Pseudo Caption Labeling(PCL)的简单而有效的方法,利用图像字幕模型生成对不同角度目标实例的描述,通过这些大量的数据样本进行知识提炼,以丰富目标的属性和关系等细节,从而提高模型的性能,实验表明该方法可以与任何图像字幕模型一起使用,不需要对模型架构或训练流程进行任何限制。
Mar, 2023
本文提出了一种新的对视觉和语言模型进行计数事实学习(counterfactual prompt learning,CPL)的方法,该方法同时采用反事实生成和对比学习的方法,在一个联合优化框架中从真实和反事实例子中学习更具有普适性的 prompt 表示。实验测试表明,CPL 在不同的视觉和语言任务上都可以获得优秀的 few-shot 性能。
Oct, 2022
本文针对 Vision-Language models 在处理 imbalanced dataset 时性能较差的问题,提出了加入 lightweight decoder 和 imbalanced 方法的改进方案,并在 ImageNet-LT iNaturalist18 和 Places-LT 三个数据集上进行了实验,证明改进后的 VLMs 相较于原来的 zero-shot classification 方法,在准确率上有显著提升。
Apr, 2023
本文提出了一种无监督提示学习(UPL)方法,以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示,在 ImageNet 以及其他 10 个数据集上,与原始 CLIP 相比,UPL 具有更优秀的传输表现,并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。
Apr, 2022