Dec, 2021

利用深层 ViT 特征作为密集的视觉描述符

TL;DR本文研究使用预训练的 Vision Transformer (ViT) 提取的深度特征作为密集的视觉描述符,提出了基于无监督 DINO-ViT 模型提取特征的简单方法,可用于各种领域的相关应用,包括共分割、语义对应等。经过大量定量和定性分析得出了符合竞争性的结果,并且较之前的无监督方法有了很大的提高。