ICLRJun, 2022

卷积神经网络是否可以比 Transformer 更强大?

TL;DR本文通过仔细研究 Transformers 的设计,发现在提高稳健性方面,使用卷积神经网络(CNNs)设计的架构同样有效。具体来说,我们的发现分别是:a)分块输入图像,b)增大卷积核尺寸,以及 c)减少激活层和归一化层的设计。我们的实验结果表明这三种设计的结合可以构建出实现简单,无需 attention-like 操作的卷积神经网络架构,其稳健性与甚至优于 Transformers。