Dec, 2023

本地遮盖与逐步冻结:为自监督学习打造高效的视觉变换器

TL;DR本文介绍了一种创新的自监督学习方法,将局部遮罩图像建模与渐进层冻结相结合,以增强 Vision Transformers(ViTs)中初始层训练的效率和速度。通过在训练过程中在战略点冻结特定层,我们降低了计算需求,同时保持或提高了学习能力。我们的方法采用了一种新颖的多尺度重构过程,促进了初始层的高效学习以及跨尺度的语义理解。结果表明,与模型准确性的最小影响(top-1 准确度下降了 0.6%),我们的方法实现了训练时间的大幅减少(约 12.5%)。我们的方法分别达到了 82.6% 的 top-1 准确度和 96.2% 的 top-5 准确度,凸显了它在计算资源和时间至关重要的场景中的潜力。该工作标志着计算机视觉领域自监督学习的进步。我们的方法的实现可在我们项目的 GitHub 存储库上找到:github.com/utkutpcgl/ViTFreeze。