CVPRApr, 2024

广义少样本分割的视觉引导:多尺度方法

TL;DR通过使用学习到的视觉提示,我们的工作研究了在少样本情况下,通过对 Transformer 解码器进行提示,来提高普适少样本分割(GFSS)任务的效果。我们提出了一种利用少量样本学习视觉提示的方法,通过这些学习到的视觉提示,我们可以对多尺度 Transformer 解码器进行提示,以便实现准确的密集预测。此外,我们引入了一种单向因果关注机制,用于连接通过少样本学习到的新提示和通过大量数据学习到的基础提示,从而提升新提示的质量而不损害基础类别的性能。总体而言,这种提示形式帮助我们在两个不同的基准数据集上实现了 GFSS 的最先进性能:COCO-$20^i$ 和 Pascal-$5^i$,而无需进行测试时间的优化或传导。此外,我们还使用未标记的测试数据进行测试时间的优化,以改进这些视觉提示,我们称之为传导提示调优(transductive prompt tuning)。