AAAISep, 2021

缩放的 ReLU 对于训练视觉 Transformer 很重要

TL;DR本论文研究了 ViT 模型的训练问题,发现 scaled ReLU 在 conv-stem 中不仅可以改善训练稳定性,还可以增加 patch tokens 的多样性,从而在不增加太多参数和 flops 的情况下显著提高性能,证明了 ViT 模型在训练得当的情况下是 CNN 模型的一个更好替代品。