LayerShuffle: 通过随机化层执行顺序增强视觉 Transformer 的鲁棒性

Jul, 2024

LayerShuffle: 通过随机化层执行顺序增强视觉 Transformer 的鲁棒性

LayerShuffle: Enhancing Robustness in Vision Transformers by Randomizing Layer Execution Order

Matthias Freiberger, Peter Kun, Anders Sundnes Løvlie, Sebastian Risi

TL;DR通过在训练时随机执行注意力模块的顺序，我们提出了一些训练方法，使得视觉变换器在测试时能够适应任意的层执行顺序，虽然会导致准确性下降 20%。此外，我们还发现经过训练的模型可以随机合并，形成 “弗兰肯斯坦” 模型，而不会损失性能，并且我们在测试时对模型进行层剪枝，发现性能下降得很平滑。

Abstract

Due to their architecture and how they are trained, artificial neural networks are typically not robust toward pruning, replacing, or shuffling layers at test time. However, such properties would be desirable for different applications, such as distributed neural network architectures where the order of execution cannot be guaranteed or parts of the network

artificial neural networks training approaches vision transformers execution order layer pruning

发现论文，激发创造

视觉 Transformer 中的多样特征学习以提高泛化性能

通过修剪与不必要特征相关的注意力头和鼓励输入梯度正交性，我们提出一种方法提高深度学习模型对分布变化的适应性并增加特征的多样性和互补性。

Aug, 2023

视觉 Transformer 剪枝

本研究提出了一个针对视觉 transformer 的裁剪方法，以不显著影响准确度的方式减少参数和 FLOPs 比例，以适应移动设备的趋势。

Apr, 2021

Shuffle Transformer：重新考虑视觉 Transformer 的空间混洗

本研究提出了一种名为 Shuffle Transformer 的新型视觉 Transformer 架构，通过使用空间 Shuffle 策略构建窗口之间的连接，使其在分类、检测和分割等视觉任务中获得卓越表现。

Jun, 2021

Vision Transformers 三要素

本文提出了三种易于实现的视觉 Transformer 变体。第一，可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二，对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务，这节省了计算量，减少了微调时的峰值内存消耗，并允许跨任务共享大部分权重。第三，添加基于 MLP 的补丁预处理层，可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响，并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。

Mar, 2022

稀疏剪枝：朝着高效的视觉 Transformer

通过应用稀疏正则化和修剪方法于视觉转换器架构，研究了性能和效率之间的权衡，并发现正则化模型修剪相较于非正则化模型修剪可提高精度。

Jul, 2023

探索反腐容忍性：视觉 Transformer 和 MLP-Mixer 中的归纳偏差

本研究探讨了视觉 transformer 模型、MLP 模型和 ResNet-50 模型的鲁棒性，发现视觉 transformer 模型在面临数据破坏时比 ResNet-50 模型和 MLP-Mixer 模型更具鲁棒性，并且拥有更强的形状偏差。

Jun, 2021

卷积神经网络是否可以比 Transformer 更强大？

本文通过仔细研究 Transformers 的设计，发现在提高稳健性方面，使用卷积神经网络（CNNs）设计的架构同样有效。具体来说，我们的发现分别是：a）分块输入图像，b）增大卷积核尺寸，以及 c）减少激活层和归一化层的设计。我们的实验结果表明这三种设计的结合可以构建出实现简单，无需 attention-like 操作的卷积神经网络架构，其稳健性与甚至优于 Transformers。

Jun, 2022

高效视觉 Transformer 的 Patch Slimming

该论文通过挖掘网络中的冗余计算研究视觉变换器的效率问题，并提出了一种新颖的修剪方法来减少计算成本，该方法称为修剪补丁法，可以移除无用的补丁，从而显著降低模型的计算成本，而不会影响模型的性能。

Jun, 2021

视觉 Transformer 对虚假相关性的鲁棒性研究

在本文中，我们通过在三个具有挑战性的基准数据集上的实验，系统地研究了视觉变换器对于伪相关性的稳健性，并将其与受欢迎的 CNN 进行了比较。我们的研究表明，当在足够大的数据集上进行预训练时，视觉变换器比 CNN 更具稳健性。他们的成功关键在于能够更好地从不满足伪相关性的示例中进行泛化。此外，我们进行了大量消融和实验来理解自我关注机制在在伪相关环境下提供稳健性的作用，我们希望我们的工作可以启发未来进一步了解 ViT 模型的稳健性。

Mar, 2022

单个注意力层可以学到什么？基于随机特征的研究

注意力层是 Transformer 架构的核心组成部分，本研究对单个多头注意力层的学习和泛化进行了严格的理论研究，探讨了随机特征设置下注意力层对目标函数的表达能力、学习复杂度以及采样分布的影响等方面，实验证明了理论结果并展示了样本大小与目标函数复杂度之间的相互作用。

Jul, 2023