自我监督视觉Transformer训练的实证研究
本研究探讨自监督学习是否为Vision Transformer (ViT)提供了与卷积网络 (convnets)相比更为突出的新特性,发现自监督ViT特征明确包含图像的语义分割信息,在ImageNet数据集中取得了78.3%的top-1准确率,并将这些发现用于自监督方法DINO中,通过线性评估,使ViT-Base在ImageNet数据集中取得了80.1%的top-1准确率。
Apr, 2021
本文研究了发展高效的自监督视觉变换器(EsViT)的两种技术,第一,我们通过全面的实证研究显示具有稀疏自我注意力的多阶段架构可以显着减少建模复杂性,但代价是失去捕捉图像区域之间的细粒度对应关系的能力。第二,我们提出了新的预训练任务区域匹配,允许模型捕捉细粒度区域依赖性,从而显着提高了学习到的视觉表示的质量。我们的结果表明,结合这两种技术,EsViT在ImageNet线性探针评估中达到81.3%的top-1,超过以前的艺术水平,吞吐量大约高一个数量级。在转移到下游线性分类任务时,EsViT在18个数据集中的17个数据集上优于其受监督的对应物。代码和模型可公开获取:该URL。
Jun, 2021
本研究探讨了视觉变换器 (ViT) 在少样本学习中的能力,发现在相同的少样本学习框架下,用 ViT 模型替换常用的 CNN 特征提取器会严重削弱少样本分类性能;本研究提出了一种名为 Self-promoted sUpervisioN (SUN) 的简单而有效的ViT少样本训练框架,用于改善 token 依赖性问题,并通过实验证明了 SUN 优于其他同类技术,并超过了 CNN 的最新研究成果。
Mar, 2022
本文改进了一种用于训练Vision Transformer(ViT)的全监督训练方法,通过仅使用三种数据增强方式,此方法优于之前的全监督训练方法,并且在图像分类、迁移学习和语义分割等任务中表现出色,同时也为ViT的自我监督方法提供了更好的基线。
Apr, 2022
本文主要通过使用基于掩码图像建模的MAE pre-training方法,即MAE-lite,来为轻量级ViTs 的pre-training提供配方,并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比,分析和表明了这种pre-training的影响,揭示了pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用,并开发了一个distillation策略来提高pre-trained representations,从而实现更好的性能。
May, 2022
研究显示ViTs在不同的学习方法下能够学习不同的行为,并发现了一些在不同学习方法下相似的ViT行为,比如Offset Local Attention Heads。同时发现对比自监督方法学习的特征与显式监督方法学习的特征竞争力相当,并且在某些情况下对于部分任务还优于显式监督方法。此外,基于重构模型的表示与对比自监督模型的表示存在非平凡的相似性。
Dec, 2022
提供额外的令牌以填补低信息背景区域中高范数令牌的内部计算,从而修复监督和自监控模型的问题,实现密集视觉预测任务的自监控视觉模型的最新技术,使用更大模型进行对象发现,为下游视觉处理提供更平滑的特征图和注意力图。
Sep, 2023
Vision Transformers (ViTs)使用自我监督学习(SSAT)作为辅助任务与主任务同时进行联合优化,以在有限的数据量下取得更好的性能表现,此方法能帮助ViTs充分利用自我监督任务和主任务的独特特点,展现出优于传统的ViTs预训练与后续微调的效果,并在10个数据集的实验证明了SSAT的显著性提升并减少了碳足迹,同时在视频领域的Deepfake检测上也验证了其普遍适用性。
Oct, 2023
本文介绍了一种创新的自监督学习方法,将局部遮罩图像建模与渐进层冻结相结合,以增强 Vision Transformers(ViTs)中初始层训练的效率和速度。通过在训练过程中在战略点冻结特定层,我们降低了计算需求,同时保持或提高了学习能力。我们的方法采用了一种新颖的多尺度重构过程,促进了初始层的高效学习以及跨尺度的语义理解。结果表明,与模型准确性的最小影响(top-1 准确度下降了 0.6%),我们的方法实现了训练时间的大幅减少(约 12.5%)。我们的方法分别达到了 82.6% 的 top-1 准确度和 96.2% 的 top-5 准确度,凸显了它在计算资源和时间至关重要的场景中的潜力。该工作标志着计算机视觉领域自监督学习的进步。我们的方法的实现可在我们项目的 GitHub 存储库上找到:github.com/utkutpcgl/ViTFreeze。
Dec, 2023
本研究解决了深度学习模型对标注数据依赖过大的问题,探讨了自监督学习(SSL)在视觉任务中的应用与机制。文章提出了一种系统分类的SSL技术分类法,并对现有的预训练任务进行了回顾,指出了该领域的挑战和未来研究方向,强调SSL在无标注数据环境下的潜在影响。
Aug, 2024