Jul, 2024

LayerShuffle: 通过随机化层执行顺序增强视觉 Transformer 的鲁棒性

TL;DR通过在训练时随机执行注意力模块的顺序,我们提出了一些训练方法,使得视觉变换器在测试时能够适应任意的层执行顺序,虽然会导致准确性下降 20%。此外,我们还发现经过训练的模型可以随机合并,形成 “弗兰肯斯坦” 模型,而不会损失性能,并且我们在测试时对模型进行层剪枝,发现性能下降得很平滑。