Oct, 2023

CrIBo:跨图像对象级自监督学习

TL;DR通过利用最近邻检索来进行自监督表示学习在以物体为中心的图像中已被证明具有益处。然而,当应用于以场景为中心的数据集时,这种方法面临限制,其中图像中的多个物体仅在全局表示中隐含捕获。这种全局引导可能导致对象表示的不可取缠结。此外,即使以物体为中心的数据集也可以受益于一种细粒度的引导方法。为了应对这些挑战,我们引入了一种新颖的针对增强密集视觉表示学习的跨图像对象级引导方法。通过在训练过程中采用对象级最近邻引导方式,CrIBo 成为一个显著强大且适当的候选算法,用于在上下文中学习,并在测试时利用最近邻检索。CrIBo 在后一任务上表现出了最新的性能,同时在更常见的下游分割任务中具有极高的竞争力。我们的代码和预训练模型将在接受后公开提供。