视觉Transformer的自动渐进式学习,用于高效训练
本文旨在从减小训练存储开销和推理复杂度的角度,提出一种先将Vision transformers稀疏化,然后再训练的方法,从而实现一定的加速效果并保持较高的精度。
Jun, 2021
本研究旨在提高视觉转换器的总体性能,通过实现金字塔对抗训练(PyramidAT),同时采用适配的Dropout和随机深度正则化技术,使在分布和越界数据分类准确性之间的权衡断裂。实验结果显示,当只使用ImageNet-1K数据训练ViT-B模型时,ImageNet图像的清晰度准确性绝对值提高了1.82%,同时提高了7个ImageNet鲁棒性指标,其绝对值范围从1.76%到15.68%。
Nov, 2021
提出了一种名为As-ViT的自动缩放框架,用于设计和扩展Vision Transformers(ViT),并在分类和检测任务上获得了强大的性能,其模型设计和缩放过程仅需12小时的训练。
Feb, 2022
TinyViT是一种新型的、基于快速蒸馏框架的小型视觉Transformer,通过使用蒸馏预训练模型的知识迁移以及对计算和参数进行限制,能够在减少参数数量的情况下依然具有较高的准确性,并且能够在多种下游任务中得到很好的转移效果。
Jul, 2022
通过在视觉Transformer模型中集成令牌剪枝和令牌汇聚技术,我们提出了一种名为令牌剪枝和汇聚Transformer(PPT)的新型加速框架,通过启发式方法自适应地应对两种不同层次的冗余,有效降低模型复杂性同时保持其预测准确性。例如,PPT在ImageNet数据集上使DeiT-S的FLOPs降低了37%,吞吐量提高了45%以上,而没有准确性下降。
Oct, 2023
提出了一种新颖的方法I&S-ViT,用于稳定地进行ViTs的PTQ,包括引入shift-uniform-log2量化器(SULQ)和三阶段平滑优化策略(SOS),并通过对多样的视觉任务进行全面评估,证明了其在低位场景下相对于现有的ViTs PTQ方法的优越性。
Nov, 2023
本文介绍了一种创新的自监督学习方法,将局部遮罩图像建模与渐进层冻结相结合,以增强 Vision Transformers(ViTs)中初始层训练的效率和速度。通过在训练过程中在战略点冻结特定层,我们降低了计算需求,同时保持或提高了学习能力。我们的方法采用了一种新颖的多尺度重构过程,促进了初始层的高效学习以及跨尺度的语义理解。结果表明,与模型准确性的最小影响(top-1 准确度下降了 0.6%),我们的方法实现了训练时间的大幅减少(约 12.5%)。我们的方法分别达到了 82.6% 的 top-1 准确度和 96.2% 的 top-5 准确度,凸显了它在计算资源和时间至关重要的场景中的潜力。该工作标志着计算机视觉领域自监督学习的进步。我们的方法的实现可在我们项目的 GitHub 存储库上找到:github.com/utkutpcgl/ViTFreeze。
Dec, 2023
Vision Transformers(ViTs)的模型量化和硬件加速方面进行了综合调查,探讨了ViTs的独特架构特性、运行时特性、模型量化的基本原则,以及用于ViTs的最新量化技术的比较分析。此外,还探索了量化ViTs的硬件加速,强调了硬件友好算法设计的重要性,并讨论了未来的挑战和研究方向。
May, 2024
本研究解决了对比学习方法在视觉变换器(ViTs)预训练中的计算挑战,尤其是高昂的计算资源需求限制了其应用。我们提出了一种加速框架,利用ViT在不同序列长度输入上的泛化能力,通过随机token丢弃和灵活的补丁缩放等序列压缩策略来降低梯度估计的成本,加快收敛速度,显著减少了大规模数据集上自监督学习算法的计算开销。
Oct, 2024
本研究解决了对比学习方法在视觉变换器(ViTs)预训练中的计算挑战,特别是大量计算资源的需求限制了其应用。我们提出一种加速框架,通过结合随机化的token丢弃和灵活的补丁缩放等序列压缩策略来减少梯度估计的成本并加速收敛,显著提升了在大规模数据集上的自监督学习算法的效率。
Oct, 2024