使用层归一化重新思考 Transformer 和 ResNet 中的跳跃连接
这份研究分析了 ResNet 的跳跃连接的效应,并提出了新理论结果,证明残差块中的跳跃连接方便保留梯度的范数,并导致稳定的反向传播,这是从优化的角度来看是可取的。研究还提出了一种新方法,Procrustes ResNets,来优化 ResNet 的过渡层,使其范数保持得更好。这些结果可以用来训练更深的网络,并启发新的深层网络架构。
May, 2018
本文提出了可学习的马尔科夫链理论来解释残差神经网络中跳跃连接的行为,并通过引入罚式连接来使模型更加高效。实验结果表明,该方法在多模式翻译和图像识别任务中有着优异的表现。
Sep, 2022
本文发现跳跃连接的使用允许更轻易生成高度可转移的对抗样本,并提出 Skip Gradient Method。作者使用该方法在 ResNets,DenseNets 和 Inceptions 等 DNN 上进行了全面的攻击。作者认为这一发现不仅推动了有关 DNN 的建筑漏洞的新研究,而且为设计安全的 DNN 架构提出了进一步的挑战。
Feb, 2020
通过有限尺寸理论,研究残差网络的信号传播及其依赖残差分支的伸缩,发现最优伸缩参数范围在最大灵敏度范围内,并给出一个理论框架指导 ResNets 的最优伸缩。
May, 2023
本文通过理论证明,展示了深度学习中残差网络加入跳跃连接可以控制子级集的连接性,且在二层 ReLU 网络的全局最小值以下的任何局部最小值将是非常 “浅” 的,其 “深度” 最多为 O (m^[(η-1)/n]),从而解释了跳跃连接在深度学习中的有效性。
Jun, 2020
本文提出了 “破碎梯度” 问题,指出标准前馈网络中梯度之间的相关性随着深度呈指数衰减,导致梯度类似于白噪声;相比之下,具有跳跃连接的体系结构更加抗干扰,梯度呈次线性降低。此外,本文还提出了一种新的 “线性外观”(LL) 初始化方法,可以避免破碎现象,并证明其可以使深度网络更好地进行训练。
Feb, 2017
通过使用 SkipNet,结合特定输入实现卷积层跳过的目的。我们提出了一个混合学习算法,以解决非可微分跳过决策的问题,并在四个基准数据集上展示了 SkipNet 可以在保留准确性的基础上减少计算量 30-90%。此外,我们定性评估了门控策略,揭示了图像大小和显著性以及跳过层数之间的关系。
Nov, 2017
通过设计参数初始化、偏差矩阵和位置相关的重缩放的组合,实现信号在无量纲变压器中的可信传播,使得在 WikiText-103 和 C4 上,我们的方法能够使没有标准化的深度变压器以与标准变压器相同的速度训练,并使深度无量纲变压器在大约 5 倍的迭代次数后达到与标准变压器相同的性能。
Feb, 2023