无需训练的自适应视觉Transformer

Feb, 2022

Auto-scaling Vision Transformers without Training

Wuyang Chen, Wei Huang, Xianzhi Du, Xiaodan Song, Zhangyang Wang...

TL;DR提出了一种名为As-ViT的自动缩放框架，用于设计和扩展Vision Transformers(ViT)，并在分类和检测任务上获得了强大的性能，其模型设计和缩放过程仅需12小时的训练。

Abstract

This work targets automated designing and scaling of vision transformers (ViTs). The motivation comes from two pain spots: 1) the lack of efficient and →

发现论文，激发创造

CvT：将卷积引入视觉Transformer

本文提出了名为CvT的新型架构，它通过将卷积引入ViT中实现了性能和效率的提升，并在ImageNet-1K上表现出优异的性能，验证了此方法的先进性和有效性。

Mar, 2021

在视觉Transformer中追求稀疏性：一次端到端的探索

本文旨在从减小训练存储开销和推理复杂度的角度，提出一种先将Vision transformers稀疏化，然后再训练的方法，从而实现一定的加速效果并保持较高的精度。

Jun, 2021

可扩展的视觉Transformer

本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小，以及其误差率、数据和计算之间的关系进行表征，提高了模型的精度和训练效果，并最终成功训练出一个包含 20 亿参数的 ViT 模型，在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时，ViT 模型能够在 few-shot transfer 任务中有良好表现，例如在每个类别只有 10 个示例的情况下，能够达到 84.86% 的 top-1 精度。

Jun, 2021

一个简单的单尺度视觉Transformer用于物体定位和实例分割

本文提出了一种简单的视觉Transformer设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过UViT架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

视觉Transformer的自动渐进式学习，用于高效训练

该论文提出一种自适应的进阶学习自动化方案(AutoProg)，通过在训练过程中自适应决定模型的生长量、生长位置以及生长方式等策略，从而使得模型的训练能够快速加速，且不会出现性能下降。通过DeiT和VOLO等模型在ImageNet上的大量实验表明，AutoProg能够将模型的训练加速高达85.1%。

Mar, 2022

LightViT: 轻量化无卷积视觉Transformer

本研究提出了一种名为LightViT的轻量化transformer网络，通过全局有效聚合策略结合注意力机制和多维度的通道/空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

TinyViT：小型视觉Transformer的快速预训练蒸馏

TinyViT是一种新型的、基于快速蒸馏框架的小型视觉Transformer，通过使用蒸馏预训练模型的知识迁移以及对计算和参数进行限制，能够在减少参数数量的情况下依然具有较高的准确性，并且能够在多种下游任务中得到很好的转移效果。

Jul, 2022

ViT 训练规模的变化：计算优化模型设计的缩放定律

该研究利用最新的比例定律推导了计算持续时间下最优计算模型的尺寸（参数数量），并进一步推进和改良了比例定律，以推断出计算优化的模型形状，成功地将其实现在视觉变换器中，并证明了我们的形状优化的视觉变换器（SoViT）在多个任务中都能取得出色的效果，挑战了当前盲目扩大视觉模型的做法并为更有信息的比例扩展铺平了道路。

May, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使Vision Transformer高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

图像掩蔽残差学习用于深度视觉Transformer的扩展

深度ViT在使用MIM进行预训练时暴露出深层退化问题，为了缓解深度ViT的训练困难，我们引入了一种自监督学习框架MIRL，该框架显著缓解了退化问题，使得ViT的深度扩展成为性能提升的有希望的方向。

Sep, 2023