ImageNet-1k 更好的纯 ViT 基线

May, 2022

Better plain ViT baselines for ImageNet-1k

Lucas Beyer, Xiaohua Zhai, Alexander Kolesnikov

TL;DR本文发现在 ImageNet-1k 规模的数据集上，Vision Transformer 模型不需要复杂的正则化技术，标准的数据增强足以提高模型表现。作者提出几种修改方式，能在较短时间内显著提高模型性能，实验表明在 TPUv3-8 上训练 90 个 epoch 的 ViT 模型在 7 小时内可以超过 76% top-1 精度，达到经典的 ResNet50 模型的性能表现。经过 300 个 epoch 的训练，模型可以在不到一天的时间内达到 80% 的 top-1 精度。

Abstract

It is commonly accepted that the vision transformer model requires sophisticated regularization techniques to excel at ImageNet-1k scale data. Surprisingly, we find this is not the case and standard data augmentation

vision transformer data augmentation training performance accuracy

发现论文，激发创造

Vision Transformers 的数据、增强和正则化训练

本文通过系统的实证研究，发现增加计算资源和数据增强可以弥补 Vision Transformers 学习小规模数据时的归纳偏差，从而实现与大规模数据学习相同精度的效果。我们在 ImageNet-21k 数据集上训练了不同规模的 ViT 模型，比大规模数据集 JFT-300M 上的同类模型表现更好。

Jun, 2021

小规模数据上轻量级视觉变形器的预训练与图像最小缩放

轻量级视觉 Transformer（ViT）可以通过预训练和最小的图像缩放，实现优于 ResNet 等卷积神经网络在小数据集和小图像分辨率上的性能，而不需要显著地增大图像。

Feb, 2024

用仅 2040 张图片训练视觉 Transformer

本篇研究介绍如何以有限数据训练 Vision Transformers，并探讨使用基于参数实例鉴别方法的理论分析。结果表明，该方法优于其他方法，可捕捉特征对齐和实例相似性，并在多个 ViT 基础下从头开始训练 7 个小数据集，取得了最新的测试结果。此外，该研究还探讨了小型数据集的迁移能力，并发现从小型数据集中学习的表示甚至可以改善大规模 ImageNet 的训练结果。

Jan, 2022

DeiT III：ViT 的复仇

本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法，通过仅使用三种数据增强方式，此方法优于之前的全监督训练方法，并且在图像分类、迁移学习和语义分割等任务中表现出色，同时也为 ViT 的自我监督方法提供了更好的基线。

Apr, 2022

可扩展的视觉 Transformer

本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小，以及其误差率、数据和计算之间的关系进行表征，提高了模型的精度和训练效果，并最终成功训练出一个包含 20 亿参数的 ViT 模型，在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时，ViT 模型能够在 few-shot transfer 任务中有良好表现，例如在每个类别只有 10 个示例的情况下，能够达到 84.86% 的 top-1 精度。

Jun, 2021

Tokens-to-Token ViT: 在 ImageNet 上从头开始训练视觉 Transformer 模型

本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器，用于图像分类，通过对输入图像进行递归聚合邻近的 Tokens，结合本地结构进行建模，从而提高模型训练样本效率，并减少模型参数和计算量，最终在 ImageNet 数据集上取得了优秀的表现。

Jan, 2021

ViTPose: 用于人体姿势估计的简单视觉 Transformer 基线模型

本文通过一个名为 ViTPose 的基础模型展示了纯视觉 Transformer 在姿态估计任务中的潜力，该模型结构简单、可扩展、训练方式灵活，并在多关键点检测中取得了优异的性能，其中大模型最高精度达到当前最佳水平。

Apr, 2022

当视觉 Transformer 在没有预训练或强数据增强的情况下优于 ResNets

本文将 ViTs 和 MLP-Mixers 从损失几何的角度进行研究，旨在提高模型的数据效率和推理泛化能力，并通过锐度感知优化器来促进平滑性，以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高 ViTs 和 MLP-Mixers 的准确性和鲁棒性。

Jun, 2021

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024