VLM-PL：基于视觉 - 语言模型的高级伪标签方法的类别增量对象检测

Mar, 2024

VLM-PL：基于视觉 - 语言模型的高级伪标签方法的类别增量对象检测

VLM-PL: Advanced Pseudo Labeling approach Class Incremental Object Detection with Vision-Language Model

Junsu Kim, Yunhoe Ku, Jihyeon Kim, Junuk Cha, Seungryul Baek

TL;DR在 Class Incremental Object Detection（CIOD）领域，解决模型如何像人类一样持续学习的问题是一个重大挑战。为了克服传统的伪标签方法在多场景增量学习中遗忘过去知识的问题，该研究介绍了一种名为 Vision-Language Model assisted Pseudo-Labeling（VLM-PL）的新方法。通过将图像和文本特征组合设计的提示模板生成自定义查询，借助视觉 - 语言模型（VLM），VLM-PL 技术能够验证伪标签的正确性，而无需额外的模型训练。通过将精细化的伪标签和真实标签整合，并结合新旧知识，VLM-PL 在 Pascal VOC 和 MS COCO 数据集上进行了广泛实验，不仅在多场景问题上表现出色，还在双场景问题上取得了最先进的结果。

Abstract

In the field of class incremental object detection (CIOD), creating models that can continuously learn like humans is a major challenge. Pseudo-labeling methods, although initially powerful, struggle with multi-scenario incremental learning due to their tendency to forget past knowledg

class incremental object detection pseudo-labeling methods vision-language model assisted pseudo-labeling multi-scenario incremental learning vision-language model

发现论文，激发创造

使用伪字幕标签进行开放词汇物体检测

该研究提出了一种名为 Pseudo Caption Labeling（PCL）的简单而有效的方法，利用图像字幕模型生成对不同角度目标实例的描述，通过这些大量的数据样本进行知识提炼，以丰富目标的属性和关系等细节，从而提高模型的性能，实验表明该方法可以与任何图像字幕模型一起使用，不需要对模型架构或训练流程进行任何限制。

Mar, 2023

VLM-CPL：基于视觉 - 语言模型的共识伪标签用于无人工标注的病理图像分类

通过利用预训练的视觉语言模型，以无人工注释的方式进行病理图像分类，通过众包伪标签技术获得伪标签并通过一致性筛选以优化准确性。

Mar, 2024

SemiVL: 基于视觉 - 语言引导的半监督语义分割

SemiVL 是一种结合了视觉 - 语言模型的丰富先验知识与半监督语义分割的方法，通过空间微调策略和语言引导解码器的设计，以及提供类别定义的语言指导，实现了更好的语义决策边界。在 4 个语义分割数据集上进行评估时，SemiVL 明显优于以前的半监督方法，例如，在带有 232 个已注释图像的 COCO 上，mIoU 提高了 + 13.5，在带有 92 个标签的 Pascal VOC 上，mIoU 提高了 + 6.1。

Nov, 2023

改进开放词汇目标检测的伪标签

通过在线自训练和分割融合头以减少预训练视觉语言模型生成的噪声伪标签并提高开放词汇目标检测性能。

Aug, 2023

单正多标语义学习中的视觉语言伪标签

提出了一种称为 Vision-Language Pseudo-Labeling 的新方法，通过使用视觉语言模型来建议强正负伪标签，在 Pascal VOC 上提高 5.5％，在 MS-COCO 上提高 18.4％，在 NUS-WIDE 上提高 15.2％，在 CUB-Birds 上提高 8.4％，优于目前的 SOTA 方法。

Oct, 2023

CVPR2024 基础 Few-Shot 目标检测挑战的解决方案

本报告介绍了一种增强的方法来解决基础性少样本物体检测任务，利用视觉语言模型 (VLM) 进行物体检测。为解决 VLM 可能遇到的与目标概念不一致的问题，本研究提出了 VLM + 框架，把多模态大型语言模型 (MM-LLM) 集成到 VLM 中。通过 MM-LLM 生成每个类别的一系列参考表达式，根据 VLM 的预测和给定的注释，选取与每个类别最大 IoU 匹配的最佳参考表达式，并生成伪标签来细调 VLM。该方法在最终测试中达到了 32.56 mAP。

Jun, 2024

基于 LLM 增强的提示调整的无数据多标签图像识别

提出了一种无需训练数据的多标签图像识别新框架，利用预训练大型语言模型（LLM）的知识学习提示，使预训练的视觉 - 语言模型（VLM）如 CLIP 适应多标签分类。通过向 LLM 提问获取关于对象的特性和背景的综合知识，为学习提示提供宝贵的文本描述。然后，通过考虑多标签依赖性，提出了一种层次化的提示学习方法，在对象具有相似属性或更有可能共现时，共享特定类别提示标记的子集。由于 CLIP 在视觉和语义上具有显著的对准性，从文本描述学习到的层次化提示被应用于推理过程中的图像分类。我们的框架为探索多个预训练模型之间的协同作用提供了一种新途径。在三个公共数据集（MS-COCO、VOC2007 和 NUS-WIDE）上进行的大量实验证明，我们的方法比现有方法取得更好的结果，尤其是在 MS-COCO 上的零样本多标签识别方法的 mAP 上超过 4.7%。

Mar, 2024

候选伪标签学习：通过无标签数据及时调整以增强视觉 - 语言模型

通过候选伪标签学习方法（CPL）在下游任务中使用适当的候选伪标签细调视觉 - 语言模型（VLMs），以提高 VLMs 在大量无标签数据上的 True 标签包含能力和类别平衡实例选择效果。

Jun, 2024

利用视觉和语言模型开发目标检测算法的无标签数据

利用视觉与语言模型产生伪标签的方法来实现无标注图像中物体的定位和分类，从而解决大规模获取标注数据的难题，并通过在学习过程中使用这些伪标签，展示了该方法在开放词汇检测和半监督目标检测等任务上的有效性。

Jul, 2022

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了 SimVLM 获得了强大的泛化和转移能力，实现了零 - shot 行为。

Aug, 2021