Vision Transformers 的数据、增强和正则化训练

Jun, 2021

Vision Transformers 的数据、增强和正则化训练

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers

Andreas Steiner, Alexander Kolesnikov, Xiaohua Zhai, Ross Wightman, Jakob Uszkoreit...

TL;DR本文通过系统的实证研究，发现增加计算资源和数据增强可以弥补 Vision Transformers 学习小规模数据时的归纳偏差，从而实现与大规模数据学习相同精度的效果。我们在 ImageNet-21k 数据集上训练了不同规模的 ViT 模型，比大规模数据集 JFT-300M 上的同类模型表现更好。

Abstract

vision transformers (ViT) have been shown to attain highly competitive performance for a wide range of vision applications, such as image classification, object detection and semantic image segmentation. In comparison to convolutional neural networks, the Vision Transformer's weaker in

vision transformers inductive bias data augmentation training data imagenet-21k dataset

发现论文，激发创造

ImageNet-1k 更好的纯 ViT 基线

本文发现在 ImageNet-1k 规模的数据集上，Vision Transformer 模型不需要复杂的正则化技术，标准的数据增强足以提高模型表现。作者提出几种修改方式，能在较短时间内显著提高模型性能，实验表明在 TPUv3-8 上训练 90 个 epoch 的 ViT 模型在 7 小时内可以超过 76% top-1 精度，达到经典的 ResNet50 模型的性能表现。经过 300 个 epoch 的训练，模型可以在不到一天的时间内达到 80% 的 top-1 精度。

May, 2022

用仅 2040 张图片训练视觉 Transformer

本篇研究介绍如何以有限数据训练 Vision Transformers，并探讨使用基于参数实例鉴别方法的理论分析。结果表明，该方法优于其他方法，可捕捉特征对齐和实例相似性，并在多个 ViT 基础下从头开始训练 7 个小数据集，取得了最新的测试结果。此外，该研究还探讨了小型数据集的迁移能力，并发现从小型数据集中学习的表示甚至可以改善大规模 ImageNet 的训练结果。

Jan, 2022

使用视觉 Transformer 训练 GANs 的 ViTGAN

本文研究在生成对抗网络中引入 Vision Transformers (ViTs) 架构，并通过引入创新的正则化技术（ViTGAN）解决现有正则化方法与自注意力交互不良的问题，实验表明 ViTGAN 在 CIFAR-10，CelebA 和 LSUN 卧室数据集上表现不亚于基于卷积神经网络的 StyleGAN2 的最新成果。

Jul, 2021

DeiT III：ViT 的复仇

本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法，通过仅使用三种数据增强方式，此方法优于之前的全监督训练方法，并且在图像分类、迁移学习和语义分割等任务中表现出色，同时也为 ViT 的自我监督方法提供了更好的基线。

Apr, 2022

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

重新审视高频组件，提高视觉 Transformer 的性能

本研究通过频率分析发现 Vision Transformer 对高频图像部分不足，从而提出了基于对抗训练的高频数据增强方法 (HAT)，可显著提升 Vision Transformer 模型的性能并适用于下游任务。

Apr, 2022

自我监督视觉 Transformer 训练的实证研究

本文研究的是计算机视觉中的自监督学习，探究了一些基本组件对自监督 ViT 训练的影响，发现稳定性是一个重要的问题，本文通过案例研究表明了部分成果实际上是不完全的失败，并探讨了当前的积极证据、挑战和开放问题。

Apr, 2021

使用小数据集高效训练视觉 Transformer

本文研究使用自监督任务和少量数据进行训练的 Visual Transformer 网络的表现，并发现新的自监督任务可以在空间关系方面鼓励 VT 网络，从而显著提高其小数据集准确性。

Jun, 2021

当视觉 Transformer 在没有预训练或强数据增强的情况下优于 ResNets

本文将 ViTs 和 MLP-Mixers 从损失几何的角度进行研究，旨在提高模型的数据效率和推理泛化能力，并通过锐度感知优化器来促进平滑性，以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高 ViTs 和 MLP-Mixers 的准确性和鲁棒性。

Jun, 2021

小规模数据上轻量级视觉变形器的预训练与图像最小缩放

轻量级视觉 Transformer（ViT）可以通过预训练和最小的图像缩放，实现优于 ResNet 等卷积神经网络在小数据集和小图像分辨率上的性能，而不需要显著地增大图像。

Feb, 2024