ICCVOct, 2023

上下文化本地视觉嵌入的自监督学习

TL;DR我们提出了 Contextualized Local Visual Embeddings(CLoVE),一种用于密集预测任务的自监督卷积方法,它学习适用于密集预测任务的表示。CLoVE 通过优化单一损失函数来学习从卷积神经网络(CNN)编码器的输出特征图中学习的上下文化局部嵌入,与当前方法不同。为了学习上下文化嵌入,CLoVE 提出了一个标准化的多头自注意力层,该层根据相似性结合来自图像不同部分的局部特征。我们在多个数据集上对 CLoVE 的预训练表示进行了广泛的基准测试。在 4 个密集预测下游任务,包括目标检测、实例分割、关键点检测和密集姿态估计中,CLoVE 达到了基于 CNN 的架构的最先进性能。