Apr, 2024
观察、分析与解决:通过带掩码图像建模预训练探索强大轻量化视觉Transformer
Observation, Analysis, and Solution: Exploring Strong Lightweight Vision
Transformers via Masked Image Modeling Pre-Training
TL;DR通过对轻量级视觉Transformer(ViTs)的掩码图像建模(MIM)预训练方法与对比学习(CL)预训练方法在不同数据规模下的行为对比研究,观察到了MIM预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想Fine-tuning表现,进而提出了预训练退火策略来解决这一问题,实验证明了该方法在不同视觉任务中的有效性。