Oct, 2023

使用 CLIP 的增量目标检测

TL;DR通过使用 CLIP 等语言 - 视觉模型生成不同类别集合的文本特征嵌入来改善特征空间,用广义类别替换早期学习阶段中的不可用新类别,从而模拟实际增量情景,并使用 CLIP 图像编码器识别提议中的潜在对象并对其进行分类,通过修改提议的背景标签为已知类别并将框添加到训练集来缓解数据模糊性问题,我们在 PASCAL VOC 2007 数据集上评估了我们的方法,在各种增量学习设置中,我们的方法优于最先进的方法,特别是对于新的类别。