VLM-CPL:基于视觉 - 语言模型的共识伪标签用于无人工标注的病理图像分类
在 Class Incremental Object Detection(CIOD)领域,解决模型如何像人类一样持续学习的问题是一个重大挑战。为了克服传统的伪标签方法在多场景增量学习中遗忘过去知识的问题,该研究介绍了一种名为 Vision-Language Model assisted Pseudo-Labeling(VLM-PL)的新方法。通过将图像和文本特征组合设计的提示模板生成自定义查询,借助视觉 - 语言模型(VLM),VLM-PL 技术能够验证伪标签的正确性,而无需额外的模型训练。通过将精细化的伪标签和真实标签整合,并结合新旧知识,VLM-PL 在 Pascal VOC 和 MS COCO 数据集上进行了广泛实验,不仅在多场景问题上表现出色,还在双场景问题上取得了最先进的结果。
Mar, 2024
该研究提出了一种名为综合病理语言图像预训练(CPLIP)的无监督技术,用于增强组织病理学中图像和文本的对齐,以进行分类和分割等任务。CPLIP 通过利用大量数据而不需要地面真实注释,来丰富视觉 - 语言模型。通过构建特定于病理学的词典、使用语言模型为图像生成文本描述,并通过预训练模型检索每个文本片段的相关图像,再运用多对多对比学习方法对模型进行微调,以使复杂的相关概念在两种模态之间对齐。在多个组织病理学任务中进行评估,CPLIP 在零样本学习场景中显示出显著的改进,超越了现有方法在可解释性和鲁棒性方面,并在该领域中树立了更高的基准。为了鼓励进一步的研究和复制,CPLIP 的代码可在 GitHub 上获取。
Jun, 2024
通过候选伪标签学习方法(CPL)在下游任务中使用适当的候选伪标签细调视觉 - 语言模型(VLMs),以提高 VLMs 在大量无标签数据上的 True 标签包含能力和类别平衡实例选择效果。
Jun, 2024
提出了一种无需训练数据的多标签图像识别新框架,利用预训练大型语言模型(LLM)的知识学习提示,使预训练的视觉 - 语言模型(VLM)如 CLIP 适应多标签分类。通过向 LLM 提问获取关于对象的特性和背景的综合知识,为学习提示提供宝贵的文本描述。然后,通过考虑多标签依赖性,提出了一种层次化的提示学习方法,在对象具有相似属性或更有可能共现时,共享特定类别提示标记的子集。由于 CLIP 在视觉和语义上具有显著的对准性,从文本描述学习到的层次化提示被应用于推理过程中的图像分类。我们的框架为探索多个预训练模型之间的协同作用提供了一种新途径。在三个公共数据集(MS-COCO、VOC2007 和 NUS-WIDE)上进行的大量实验证明,我们的方法比现有方法取得更好的结果,尤其是在 MS-COCO 上的零样本多标签识别方法的 mAP 上超过 4.7%。
Mar, 2024
该研究提出了一种名为 Pseudo Caption Labeling(PCL)的简单而有效的方法,利用图像字幕模型生成对不同角度目标实例的描述,通过这些大量的数据样本进行知识提炼,以丰富目标的属性和关系等细节,从而提高模型的性能,实验表明该方法可以与任何图像字幕模型一起使用,不需要对模型架构或训练流程进行任何限制。
Mar, 2023
该研究介绍了一个新的提高医学图像识别性能的方法,利用预训练视觉 - 语言模型和伪提示生成来实现多标签分类和自动诊断,对比实验证明了其在多标签胸部放射图数据集上的卓越性能。
May, 2024
SemiVL 是一种结合了视觉 - 语言模型的丰富先验知识与半监督语义分割的方法,通过空间微调策略和语言引导解码器的设计,以及提供类别定义的语言指导,实现了更好的语义决策边界。在 4 个语义分割数据集上进行评估时,SemiVL 明显优于以前的半监督方法,例如,在带有 232 个已注释图像的 COCO 上,mIoU 提高了 + 13.5,在带有 92 个标签的 Pascal VOC 上,mIoU 提高了 + 6.1。
Nov, 2023
提出了一种称为 Vision-Language Pseudo-Labeling 的新方法,通过使用视觉语言模型来建议强正负伪标签,在 Pascal VOC 上提高 5.5%,在 MS-COCO 上提高 18.4%,在 NUS-WIDE 上提高 15.2%,在 CUB-Birds 上提高 8.4%,优于目前的 SOTA 方法。
Oct, 2023
研究使用 CLIP 中的零样本伪标签作为监督来增强视觉 - 语言模型,发现半监督、零样本迁移和无监督学习可以视作优化相同损失函数的统一视图,进而开发出全面的跨学习范式适用的培训策略,同时找到未探索的提示调整策略可以通过迭代滴精细伪标签不断提高性能。
Jun, 2023
本文提出了一种简约的视觉语言模型(Simple Visual Language Model)普及方法,使用大规模的弱监督数据,通过单一前缀语言建模目标进行端到端训练,并在不利用额外数据或任务特定的定制的情况下,在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果,还展示了 SimVLM 获得了强大的泛化和转移能力,实现了零 - shot 行为。
Aug, 2021