May, 2024

无监督预训练的语言 - 视觉提示用于低数据实例分割

TL;DR在当前的研究中,根据最新的 DETR(DEtection TRansformer)范式,基于查询的端到端实例分割(QEIS)方法在大规模数据集上训练时表现出了卓越的性能,尤其是与基于 CNN 的模型相比。然而,当面对有限的训练数据时,这些 QEIS 方法的有效性显著降低。为解决这一问题,我们提出了一种新颖的方法,用于无监督预训练在低数据环境中,即 Unsupervised Pre-training with Language-Vision Prompts (UPLVP),通过将语言 - 视觉提示引入查询 / 核心,改善了 QEIS 模型的实例分割。我们的方法包括三个部分:(1) Mask Proposal:利用语言 - 视觉模型基于无标签图像生成伪掩膜。(2) Prompt-Kernel Matching:将伪掩膜转换为提示,并将最佳匹配的定位和形状特征注入到对应的核心中。(3) Kernel Supervision:以核心级别制定预训练的监督,以确保鲁棒学习。在我们的预训练方法的帮助下,QEIS 模型可以在低数据环境中更快地收敛并表现出更好的性能,实验评估表明,当使用我们的方法进行预训练时,QEIS 模型在 MS COCO、Cityscapes 和 CTW1500 数据集上的表现可以显著提高。代码将在此 https URL 中提供。