Oct, 2023

本地 - 全局自监督视觉表示学习

TL;DR本研究探索了将图像级别与局部级别的判别相结合的自我监督表示学习方法,通过同时观察局部和全局视觉特征来增强学习表示的质量。我们提出了一个简单而有效的补丁匹配算法,借助视觉变换器(ViT)作为骨干网络,从而生成图像级别和补丁级别的表示。结果显示,我们的方法在图像分类和下游任务中表现优于最先进的图像级别表示学习方法。