Oct, 2023
有限数据,无限潜力:ViT与遮蔽自编码器增强的研究
Limited Data, Unlimited Potential: A Study on ViTs Augmented by Masked
Autoencoders
TL;DRVision Transformers (ViTs)使用自我监督学习(SSAT)作为辅助任务与主任务同时进行联合优化,以在有限的数据量下取得更好的性能表现,此方法能帮助ViTs充分利用自我监督任务和主任务的独特特点,展现出优于传统的ViTs预训练与后续微调的效果,并在10个数据集的实验证明了SSAT的显著性提升并减少了碳足迹,同时在视频领域的Deepfake检测上也验证了其普遍适用性。