ResNets 中的残留缩放优化信号传播
该研究介绍了一种能够设计高效 ResNets 网络的分析工具,通过采用一种改进后的 Weight Standardization 技术,该分析工具的作用在于确保具有 ReLU 或 Swish 激活函数的信号在网络的深度方向上不发生偏移以达到在 FLOP 预算范围内与当今最先进的 EfficientNets 在 ImageNet 上的性能竞争可比性。
Jan, 2021
这份研究分析了 ResNet 的跳跃连接的效应,并提出了新理论结果,证明残差块中的跳跃连接方便保留梯度的范数,并导致稳定的反向传播,这是从优化的角度来看是可取的。研究还提出了一种新方法,Procrustes ResNets,来优化 ResNet 的过渡层,使其范数保持得更好。这些结果可以用来训练更深的网络,并启发新的深层网络架构。
May, 2018
通过数值实验,我们研究了 Residual 网络的权重性质和与深度有关的规模,在某些网络结构下得到了另一种常微分方程的极限,这表明了深度 ResNets 的极限模型不完全适用于神经正则微分方程。
May, 2021
研究了跳跃连接技术中规模因子对其效率的影响,提出了递归应用带有层归一化的跳跃连接技术可以显著提高性能并在各种任务包括机器翻译和图像分类技术中具有很好的普适性。
May, 2021
该论文从神经切向核的角度研究了深度学习中深层残差网络相对于前馈网络的泛化性能优势,并给出了数字结果支持。
Feb, 2020
通过分析过度参数化的深层残差网络,我们证明了梯度下降学习的网络类是整个神经网络函数类的一个子集,这个子集足够大以保证小的训练误差和测试误差,并且此类网络具有小的泛化差距,这提供了残差网络优于非残差网络的解释。
Oct, 2019
本文研究残差连接对神经网络假设空间覆盖数以及泛化能力的影响,证明了哪怕是固定了权重矩阵和非线性函数的总数,残差连接不会增加神经网络的假设复杂性,并基于假设空间覆盖数得到了 ResNet 等采用残差连接的深度神经网络的多类泛化界。根据此泛化界,我们可以使用正则化项控制权重矩阵的模不要过度增大,以尽量达到良好的泛化性能。
Apr, 2019
深度残差神经网络(ResNets)在各种实际应用中取得了显著的成功。本文确定了适当的缩放因子(用 $\alpha$ 表示),用于深度宽 ResNets 的残差分支,以实现良好的泛化能力。我们证明,如果 $\alpha$ 是一个常数,则深度趋于无穷时,由残差神经切向核(RNTK)引起的函数类是渐近不可学习的。我们还强调了一个令人惊讶的现象:即使允许 $\alpha$ 随着深度 L 的增加而减小,退化现象仍可能发生。然而,当 $\alpha$ 与 L 迅速减小时,使用深度 RNTK 进行早停止的核回归可以达到最小最大速率,前提是目标回归函数位于与无穷深度 RNTK 相关联的再生核希尔伯特空间中。我们对合成数据和实际分类任务(如 MNIST、CIFAR10 和 CIFAR100)的模拟研究支持我们对 $\alpha$ 选择的理论标准。
Mar, 2024
本研究旨在证明,通过添加跳跃连接,残差网络将采用基于解析方法确定的次指数正向和反向动态,从而有效地保护输入空间几何形态和梯度信息流。我们证明理论和实证,Xavier 或 He 方案等通用初始方案不是残差网络的最佳选择。
Dec, 2017