Mar, 2024

VLM-PL:基于视觉 - 语言模型的高级伪标签方法的类别增量对象检测

TL;DR在 Class Incremental Object Detection(CIOD)领域,解决模型如何像人类一样持续学习的问题是一个重大挑战。为了克服传统的伪标签方法在多场景增量学习中遗忘过去知识的问题,该研究介绍了一种名为 Vision-Language Model assisted Pseudo-Labeling(VLM-PL)的新方法。通过将图像和文本特征组合设计的提示模板生成自定义查询,借助视觉 - 语言模型(VLM),VLM-PL 技术能够验证伪标签的正确性,而无需额外的模型训练。通过将精细化的伪标签和真实标签整合,并结合新旧知识,VLM-PL 在 Pascal VOC 和 MS COCO 数据集上进行了广泛实验,不仅在多场景问题上表现出色,还在双场景问题上取得了最先进的结果。