当视觉Transformer在没有预训练或强数据增强的情况下优于ResNets

Jun, 2021

当视觉Transformer在没有预训练或强数据增强的情况下优于ResNets

When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations

Xiangning Chen, Cho-Jui Hsieh, Boqing Gong

TL;DR本文将ViTs和MLP-Mixers从损失几何的角度进行研究，旨在提高模型的数据效率和推理泛化能力，并通过锐度感知优化器来促进平滑性，以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高ViTs和MLP-Mixers的准确性和鲁棒性。

Abstract

vision transformers (ViTs) and mlps signal further efforts on replacing hand-wired features or inductive biases with general-purpose neural architectures. Existing works empower the models by massive data, such a

发现论文，激发创造

提升视觉Transformer的对抗传递性

本研究通过提出两种攻击策略，Self-Ensemble 和 Token Refinement，充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。

Jun, 2021

在视觉Transformer中追求稀疏性：一次端到端的探索

本文旨在从减小训练存储开销和推理复杂度的角度，提出一种先将Vision transformers稀疏化，然后再训练的方法，从而实现一定的加速效果并保持较高的精度。

Jun, 2021

早期卷积有助于变压器更好地视觉

通过将卷积干部替换为小型的步幅为2的3*3卷积，研究人员证明了将视觉变换器模型的初始处理更改为标准卷积干部可以显著提高最终模型的稳定性，并提高峰值性能.

Jun, 2021

Vision Transformer和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和Vision Transformer模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中self-attention在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021

金字塔对抗训练提高 ViT 模型性能

本研究旨在提高视觉转换器的总体性能，通过实现金字塔对抗训练（PyramidAT），同时采用适配的Dropout和随机深度正则化技术，使在分布和越界数据分类准确性之间的权衡断裂。实验结果显示，当只使用ImageNet-1K数据训练ViT-B模型时，ImageNet图像的清晰度准确性绝对值提高了1.82％，同时提高了7个ImageNet鲁棒性指标，其绝对值范围从1.76％到15.68％。

Nov, 2021

训练鲁棒性视觉Transformer的轻量级配方

本文研究使用Vision Transformers架构在对抗训练中对抗外部攻击的鲁棒性问题，并使用ImageNet数据集的子集进行严格的消融研究，找到了一种改进后的训练方法，可以在不使用强数据增强的情况下提高模型的性能和识别鲁棒性。

Sep, 2022

剥离洋葱：分层减少数据冗余以提高Vision Transformer训练效率

本文提出了一种从三个稀疏角度出发的训练框架 Tri-Level E-ViT，探索了数据冗余的减少，并证明了该框架不仅可以加速各种 ViT 架构的训练，还可以提高准确性。

Nov, 2022

视觉Transformer中的稀疏二次下降：真实还是虚幻的威胁？

Vision transformers are state-of-the-art models that use attention to identify key features in images, but their performance regarding sparse double descent and the optimal model size remains unknown.

Jul, 2023

小而强大：使用小适配器对ViTs进行微调

通过引入适配器逐步减小其尺寸的方法，我们提出了MiMi训练框架，该框架能够在降低计算和存储成本的同时保持高性能，通过适配器层间神经元重要性的比较来自动估计每个适配器的隐藏维度，我们的方法在三个数据集基准DomainNet、VTAB和Multi-task上优于现有方法，寻找准确性和训练参数之间的最佳权衡。

Nov, 2023

提升视觉变换器的忠实度

通过引入Faithful ViTs和Denoised Diffusion Smoothing方法，本研究改进了Vision Transformers在解释准确性和对抗攻击下的鲁棒性，并在维持注意力解释性方面取得了更高的可靠性。

Nov, 2023