无需训练的自适应视觉Transformer
本文提出了名为CvT的新型架构,它通过将卷积引入ViT中实现了性能和效率的提升,并在ImageNet-1K上表现出优异的性能,验证了此方法的先进性和有效性。
Mar, 2021
本文旨在从减小训练存储开销和推理复杂度的角度,提出一种先将Vision transformers稀疏化,然后再训练的方法,从而实现一定的加速效果并保持较高的精度。
Jun, 2021
本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小,以及其误差率、数据和计算之间的关系进行表征,提高了模型的精度和训练效果,并最终成功训练出一个包含 20 亿参数的 ViT 模型,在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时,ViT 模型能够在 few-shot transfer 任务中有良好表现,例如在每个类别只有 10 个示例的情况下,能够达到 84.86% 的 top-1 精度。
Jun, 2021
本文提出了一种简单的视觉Transformer设计,作为目标定位和实例分割任务的强大基线,绕过传统设计思路,通过UViT架构实现更好的计算成本和多尺度全局上下文聚合的平衡。
Dec, 2021
该论文提出一种自适应的进阶学习自动化方案(AutoProg),通过在训练过程中自适应决定模型的生长量、生长位置以及生长方式等策略,从而使得模型的训练能够快速加速,且不会出现性能下降。通过DeiT和VOLO等模型在ImageNet上的大量实验表明,AutoProg能够将模型的训练加速高达85.1%。
Mar, 2022
本研究提出了一种名为LightViT的轻量化transformer网络,通过全局有效聚合策略结合注意力机制和多维度的通道/空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
TinyViT是一种新型的、基于快速蒸馏框架的小型视觉Transformer,通过使用蒸馏预训练模型的知识迁移以及对计算和参数进行限制,能够在减少参数数量的情况下依然具有较高的准确性,并且能够在多种下游任务中得到很好的转移效果。
Jul, 2022
该研究利用最新的比例定律推导了计算持续时间下最优计算模型的尺寸(参数数量),并进一步推进和改良了比例定律,以推断出计算优化的模型形状,成功地将其实现在视觉变换器中,并证明了我们的形状优化的视觉变换器(SoViT)在多个任务中都能取得出色的效果,挑战了当前盲目扩大视觉模型的做法并为更有信息的比例扩展铺平了道路。
May, 2023
深度ViT在使用MIM进行预训练时暴露出深层退化问题,为了缓解深度ViT的训练困难,我们引入了一种自监督学习框架MIRL,该框架显著缓解了退化问题,使得ViT的深度扩展成为性能提升的有希望的方向。
Sep, 2023