Oct, 2023

有限数据,无限潜力:ViT 与遮蔽自编码器增强的研究

TL;DRVision Transformers (ViTs) 使用自我监督学习 (SSAT) 作为辅助任务与主任务同时进行联合优化,以在有限的数据量下取得更好的性能表现,此方法能帮助 ViTs 充分利用自我监督任务和主任务的独特特点,展现出优于传统的 ViTs 预训练与后续微调的效果,并在 10 个数据集的实验证明了 SSAT 的显著性提升并减少了碳足迹,同时在视频领域的 Deepfake 检测上也验证了其普遍适用性。