无捷径的深度学习:定制整流器塑造核心
ResNet是一种残差网络,利用快捷连接显著减少了训练的难度,同时在训练和泛化误差方面都实现了很好的性能提升,我们提供了快捷连接 2 的独特理论解释,它可以使训练非常深的模型与浅的模型一样容易,同时我们的实验证明了通过使用快捷连接 2 进行小权重初始化,可以从不同的角度(最终损失、学习动态和稳定性,以及沿着学习过程的海森矩阵的行为)实现显着更好的结果。
Nov, 2016
本研究展示了使用适当的初始化方案可以简单地训练具有一万层或更多层的普通卷积神经网络,并演示了这些随机正交卷积核的生成算法以及它们实现极深网络的高效训练能力。
Jun, 2018
通过使用零初始化参数对残差连接进行门控,满足初始动态等性,可以在深度学习中进行更快的收敛和更好的测试表现,并且我们可以轻松地训练120层变压器。
Mar, 2020
通过神经切线核理论和Deep Kernel Shaping方法,我们成功控制了深度神经网络的初始化时间内核函数的“形状”,实现了无归一化层的残差网络的快速SGD训练,并同时提高了一些传统上性能非常差的激活函数的结果。
Oct, 2021
通过设计参数初始化、偏差矩阵和位置相关的重缩放的组合,实现信号在无量纲变压器中的可信传播,使得在WikiText-103和C4上,我们的方法能够使没有标准化的深度变压器以与标准变压器相同的速度训练,并使深度无量纲变压器在大约5倍的迭代次数后达到与标准变压器相同的性能。
Feb, 2023
深度残差神经网络(ResNets)在各种实际应用中取得了显著的成功。本文确定了适当的缩放因子(用$\alpha$表示),用于深度宽ResNets的残差分支,以实现良好的泛化能力。我们证明,如果$\alpha$是一个常数,则深度趋于无穷时,由残差神经切向核(RNTK)引起的函数类是渐近不可学习的。我们还强调了一个令人惊讶的现象:即使允许$\alpha$随着深度L的增加而减小,退化现象仍可能发生。然而,当$\alpha$与L迅速减小时,使用深度RNTK进行早停止的核回归可以达到最小最大速率,前提是目标回归函数位于与无穷深度RNTK相关联的再生核希尔伯特空间中。我们对合成数据和实际分类任务(如MNIST、CIFAR10和CIFAR100)的模拟研究支持我们对$\alpha$选择的理论标准。
Mar, 2024