Sep, 2023

DropPos: 基于重构被删除位置的预训练视觉变换器

TL;DR对于 Vision Transformers 来说,Droppos 是一种新颖的自我监督任务,它通过增强位置感知能力来提升模型性能。Droppos 通过随机丢弃一部分位置嵌入,根据视觉外观分类具体位置,采用位置平滑和注意力重构策略来解决类别相似性问题,实验结果表明 Droppos 在各类基准测试上表现出色,与现有的自我监督方法相比具有竞争力。