使用视觉 Transformer 训练 GANs 的 ViTGAN

Jul, 2021

使用视觉 Transformer 训练 GANs 的 ViTGAN

ViTGAN: Training GANs with Vision Transformers

Kwonjoon Lee, Huiwen Chang, Lu Jiang, Han Zhang, Zhuowen Tu...

TL;DR本文研究在生成对抗网络中引入 Vision Transformers (ViTs) 架构，并通过引入创新的正则化技术（ViTGAN）解决现有正则化方法与自注意力交互不良的问题，实验表明 ViTGAN 在 CIFAR-10，CelebA 和 LSUN 卧室数据集上表现不亚于基于卷积神经网络的 StyleGAN2 的最新成果。

Abstract

Recently, vision transformers (ViTs) have shown competitive performance on image recognition while requiring less vision-specific inductive biases. In this paper, we investigate if such observation can be extended to image generation. To this end, we integrate the ViT architecture into

vision transformers image generation gans regularization techniques vitgan

发现论文，激发创造

视觉 Transformer 的最新进展：近期研究的综述和展望

本文介绍了近期表现最佳的 Vision Transformers 方法，对其强弱项、计算成本、训练和测试数据集进行了全面综述，并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较，最后讨论了一些局限性和提出了未来研究方向。

Mar, 2022

GradViT: Vision Transformers 的梯度反演

该论文展示了视觉转换器（ViTs）对基于渐变的反演攻击的易受攻击性。作者提供了一种名为 GradViT 的方法，可以将随机噪声优化为自然图像，以通过迭代过程重建原始数据批次。作者发现 Vision Transformers 由于注意机制的存在，比之前研究过的 CNNs 容易受到攻击。作者的方法具有卓越的定量与定性表现。

Mar, 2022

Vision Transformers 的数据、增强和正则化训练

本文通过系统的实证研究，发现增加计算资源和数据增强可以弥补 Vision Transformers 学习小规模数据时的归纳偏差，从而实现与大规模数据学习相同精度的效果。我们在 ImageNet-21k 数据集上训练了不同规模的 ViT 模型，比大规模数据集 JFT-300M 上的同类模型表现更好。

Jun, 2021

DeiT III：ViT 的复仇

本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法，通过仅使用三种数据增强方式，此方法优于之前的全监督训练方法，并且在图像分类、迁移学习和语义分割等任务中表现出色，同时也为 ViT 的自我监督方法提供了更好的基线。

Apr, 2022

自主学习视觉 Transformer 用于领域泛化

本文探讨使用自我蒸馏方法解决视觉 Transformer 在领域泛化问题上的过拟合问题，并在五个具有挑战性的数据集上实现了显著的性能提升，同时表现出了对最新领域泛化方法的优异性。

Jul, 2022

提升视觉 Transformer 的对抗传递性

本研究通过提出两种攻击策略，Self-Ensemble 和 Token Refinement，充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。

Jun, 2021

卷积神经网络和视觉变换器在时尚 MNIST 分类中的应用：文献综述

对卷积神经网络（CNN）和视觉 Transformer（ViT）在图像分类领域的比较分析进行了研究，特别关注电子商务行业中的服装分类。通过使用时尚 MNIST 数据集，研究了 CNN 和 ViT 的独特属性。研究发现，CNN 长期以来一直是图像分类的基石，而 ViT 引入了一种创新的自注意机制，可以对不同输入数据组件进行细致的加权。既有文献的综合分析揭示了 ViT 和 CNN 在图像分类领域的区别，同时研究了使用这两种架构的最新方法，旨在确定 ViT 和 CNN 在电子商务行业中对时尚 MNIST 数据集进行图像分类的最合适架构。本研究强调了将这两种架构以不同形式结合以提高整体性能的重要性，因为 CNN 擅长识别局部模式，而 ViT 擅长抓住整体上下文，这使得它们的组合成为提高图像分类性能的一种有前途的策略。

Jun, 2024

ViTs 随处可见：综合研究展示不同领域中的视觉 Transformer

Transformer 设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于 Transformer 的 Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

用仅 2040 张图片训练视觉 Transformer

本篇研究介绍如何以有限数据训练 Vision Transformers，并探讨使用基于参数实例鉴别方法的理论分析。结果表明，该方法优于其他方法，可捕捉特征对齐和实例相似性，并在多个 ViT 基础下从头开始训练 7 个小数据集，取得了最新的测试结果。此外，该研究还探讨了小型数据集的迁移能力，并发现从小型数据集中学习的表示甚至可以改善大规模 ImageNet 的训练结果。

Jan, 2022

引导 ViT：解放视觉 Transformer 从预训练中

本研究提出了一种基于卷积神经网络的归纳偏差来加速模型收敛训练的方法，不再需要观像变换器（ViTs）使用大规模的预训练数据。实验结果表明，加入归纳偏差能够显著加速 ViTs 收敛速度并用更少的参数胜过传统 CNNs。

Dec, 2021