图像掩蔽残差学习用于深度视觉Transformer的扩展
本文发现Vision transformers模型存在attention collapse issue现象,即transformer模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为Re-attention的有效方法来解决该问题,使得32层的Vision transformers模型在ImageNet数据集的Top-1分类准确率上提高了1.6%。
Mar, 2021
本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小,以及其误差率、数据和计算之间的关系进行表征,提高了模型的精度和训练效果,并最终成功训练出一个包含 20 亿参数的 ViT 模型,在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时,ViT 模型能够在 few-shot transfer 任务中有良好表现,例如在每个类别只有 10 个示例的情况下,能够达到 84.86% 的 top-1 精度。
Jun, 2021
提出了一种名为As-ViT的自动缩放框架,用于设计和扩展Vision Transformers(ViT),并在分类和检测任务上获得了强大的性能,其模型设计和缩放过程仅需12小时的训练。
Feb, 2022
本研究针对Vision Transformer深度增加时性能达到饱和的问题提出了两种有效而无需超参数的技术AttnScale和FeatScale,能够有效克服与注意力折叠和补丁均匀性等相关的ViT训练伪像。
Mar, 2022
本文主要通过使用基于掩码图像建模的MAE pre-training方法,即MAE-lite,来为轻量级ViTs 的pre-training提供配方,并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比,分析和表明了这种pre-training的影响,揭示了pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用,并开发了一个distillation策略来提高pre-trained representations,从而实现更好的性能。
May, 2022
本文提出了一种从三个稀疏角度出发的训练框架 Tri-Level E-ViT,探索了数据冗余的减少,并证明了该框架不仅可以加速各种 ViT 架构的训练,还可以提高准确性。
Nov, 2022
Vision transformers are state-of-the-art models that use attention to identify key features in images, but their performance regarding sparse double descent and the optimal model size remains unknown.
Jul, 2023
Vision Transformers (ViTs)使用自我监督学习(SSAT)作为辅助任务与主任务同时进行联合优化,以在有限的数据量下取得更好的性能表现,此方法能帮助ViTs充分利用自我监督任务和主任务的独特特点,展现出优于传统的ViTs预训练与后续微调的效果,并在10个数据集的实验证明了SSAT的显著性提升并减少了碳足迹,同时在视频领域的Deepfake检测上也验证了其普遍适用性。
Oct, 2023
提出了一种新颖的方法I&S-ViT,用于稳定地进行ViTs的PTQ,包括引入shift-uniform-log2量化器(SULQ)和三阶段平滑优化策略(SOS),并通过对多样的视觉任务进行全面评估,证明了其在低位场景下相对于现有的ViTs PTQ方法的优越性。
Nov, 2023
通过对轻量级视觉Transformer(ViTs)的掩码图像建模(MIM)预训练方法与对比学习(CL)预训练方法在不同数据规模下的行为对比研究,观察到了MIM预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想Fine-tuning表现,进而提出了预训练退火策略来解决这一问题,实验证明了该方法在不同视觉任务中的有效性。
Apr, 2024