可扩展的视觉Transformer

Jun, 2021

Scaling Vision Transformers

Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, Lucas Beyer

TL;DR本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小，以及其误差率、数据和计算之间的关系进行表征，提高了模型的精度和训练效果，并最终成功训练出一个包含 20 亿参数的 ViT 模型，在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时，ViT 模型能够在 few-shot transfer 任务中有良好表现，例如在每个类别只有 10 个示例的情况下，能够达到 84.86% 的 top-1 精度。

Abstract

Attention-based neural networks such as the vision transformer (ViT) have recently attained state-of-the-art results on many computer vision benchmarks. Scale is a primary ingredient in attaining excellent results, therefore, understanding a model's →

发现论文，激发创造

一张图像胜过16*16个单词：规模下的图像识别变形金刚

本文研究使用Transformer代替CNN进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020

多尺度视觉 Longformer: 一种新的高分辨率图像编码 Vision Transformer

本文提出了一种新的Vision Transformer (ViT)结构Multi-Scale Vision Longformer，可以提高处理高分辨率图像的能力，主要通过多尺度模型结构和视觉Longformer的注意机制来实现，经过全面的实验表明在多项计算机视觉任务中，新的ViT模型比现有的ViT模型和基于ResNet的模型及其他竞争模型的性能都更好。

Mar, 2021

Vision Transformer和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和Vision Transformer模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中self-attention在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021

缩放的ReLU对于训练视觉Transformer很重要

本论文研究了ViT模型的训练问题，发现scaled ReLU在conv-stem中不仅可以改善训练稳定性，还可以增加patch tokens的多样性，从而在不增加太多参数和flops的情况下显著提高性能，证明了ViT模型在训练得当的情况下是CNN模型的一个更好替代品。

Sep, 2021

无需训练的自适应视觉Transformer

提出了一种名为As-ViT的自动缩放框架，用于设计和扩展Vision Transformers(ViT)，并在分类和检测任务上获得了强大的性能，其模型设计和缩放过程仅需12小时的训练。

Feb, 2022

将视觉Transformer扩展至220亿参数

本文介绍了高效稳定地训练一个22B参数的Vision Transformers（ViT-22B）的方法，并在结果模型上进行了大量实验。ViT-22B展示了在视觉领域实现LLM般的扩展的潜力，并提供了部分实现的关键步骤。

Feb, 2023

ViT 训练规模的变化：计算优化模型设计的缩放定律

该研究利用最新的比例定律推导了计算持续时间下最优计算模型的尺寸（参数数量），并进一步推进和改良了比例定律，以推断出计算优化的模型形状，成功地将其实现在视觉变换器中，并证明了我们的形状优化的视觉变换器（SoViT）在多个任务中都能取得出色的效果，挑战了当前盲目扩大视觉模型的做法并为更有信息的比例扩展铺平了道路。

May, 2023

选择哪种Transformer：视觉Transformer效率的比较分析

对视觉Transformer及相关架构的效率进行了综合分析，揭示了一系列有趣的见解，例如发现ViT在多个效率度量标准上仍然是最佳选择，同时低推理内存和参数数量时，混合注意力-CNN模型表现良好，模型大小的缩放比图像大小更为重要，FLOPS与训练内存之间存在强正相关性。

Aug, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使Vision Transformer高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

ScaleKD：强大的视觉变换器可以成为优秀的教师

本研究解决了如何利用预训练的视觉变换器（ViT）模型作为教师，推动跨架构知识蒸馏（KD）研究的可扩展性问题。提出了一种简单有效的KD方法ScaleKD，通过三种耦合组件的组合，显著提高了学生模型在各类图像分类任务上的表现，具备更高的效率和更大的模型利得。

Nov, 2024