IJCAIJun, 2023

DenseDINO: 通过基于 Token 的点级一致性提高密集型自监督学习

TL;DR本文提出了一种名为 DenseDINO 的简单且高效的自监督学习的 transformer 框架,用于学习密集视觉表示。通过跨视图引入基于 token 的点级监督来利用密集预测任务需要但被现有自监督 transformer 所忽略的空间信息。与 vanilla DINO 相比,在 ImageNet 的分类评估中获得了有竞争力的表现,并在 PascalVOC 上的语义分割中在线性探测协议下实现了大幅度的提升 (+7.2%mIoU)。