Mar, 2024

视觉语言对象检测的零样本可迁移增量学习

TL;DR本文提出了一种增量的视觉 - 语言物体检测(IVLOD)学习任务,旨在在保持泛化能力的同时,逐步调整预训练的视觉 - 语言物体检测模型(VLODMs)以适应不同的专用领域。为了解决这一新挑战,我们提出了一种称为 Zero-interference Reparameterizable Adaptation(ZiRa)的新方法,该方法引入了零干扰损失和参数重参数化技术来处理 IVLOD,而不会增加额外的推理成本或显著增加内存使用量。对 COCO 和 ODinW-13 数据集进行的综合实验表明,ZiRa 能够有效保护 VLODMs 的零泛化能力,并持续适应新任务。具体来说,在 ODinW-13 数据集上训练后,ZiRa 的性能优于 CL-DETR 和 iDETR,分别提高了 13.91 和 8.71 个 AP 的零泛化能力。