ReZero是您所需的:在大深度下快速收敛
研究表明,修正线性单元(ReLU)不仅可以改善梯度消失问题、实现高效反向传播,且在学习参数方面具有稀疏性;本文则从表现力的角度探究了ReLU网络的决策边界,并实验证明两层ReLU网络的决策边界可以被阈值网络广泛捕捉,而后者可能需要一个指数级别的更多的隐藏单元。此外,本文还提出了系数条件,将符号网络表示为ReLU网络的隐藏单元数量可以倍减。最后,作者通过对一些合成数据进行实验比较了ReLU网络和阈值网络及它们较小的ReLU网络的学习能力。
Nov, 2015
ResNet是一种残差网络,利用快捷连接显著减少了训练的难度,同时在训练和泛化误差方面都实现了很好的性能提升,我们提供了快捷连接 2 的独特理论解释,它可以使训练非常深的模型与浅的模型一样容易,同时我们的实验证明了通过使用快捷连接 2 进行小权重初始化,可以从不同的角度(最终损失、学习动态和稳定性,以及沿着学习过程的海森矩阵的行为)实现显着更好的结果。
Nov, 2016
本文提出了“破碎梯度”问题,指出标准前馈网络中梯度之间的相关性随着深度呈指数衰减,导致梯度类似于白噪声;相比之下,具有跳跃连接的体系结构更加抗干扰,梯度呈次线性降低。此外,本文还提出了一种新的“线性外观”(LL)初始化方法,可以避免破碎现象,并证明其可以使深度网络更好地进行训练。
Feb, 2017
本研究通过凸优化理论分析发现,ReLU神经网络通过一种隐含的正则化机制实现高维特征选择,并证明了该等价凸问题可以通过标准凸优化求解器在多项式时间内全局优化。
Oct, 2021
通过设计参数初始化、偏差矩阵和位置相关的重缩放的组合,实现信号在无量纲变压器中的可信传播,使得在WikiText-103和C4上,我们的方法能够使没有标准化的深度变压器以与标准变压器相同的速度训练,并使深度无量纲变压器在大约5倍的迭代次数后达到与标准变压器相同的性能。
Feb, 2023
通过有限尺寸理论,研究残差网络的信号传播及其依赖残差分支的伸缩,发现最优伸缩参数范围在最大灵敏度范围内,并给出一个理论框架指导ResNets的最优伸缩。
May, 2023
通过开发统一的信号传播理论和提供控制转换模型中正向和反向信号时刻的公式,本研究致力于理解和缓解与高注意力分数相关的梯度消失/爆炸、秩坍缩和不稳定性。我们还提出了DeepScaleLM,一种初始化和缩放方案,通过整个模型保持单位输出/梯度时刻,从而使得能够训练包含上百层的非常深的模型。在多个数据集和模型大小上,我们发现转换模型可以更深 - 我们的深度模型在语言建模、语音翻译和图像分类上优于浅层模型,在只编码器、只解码器和编码器-解码器变体以及Pre-LN和Post-LN transformer上均如此。这些改进也会提高下游问答任务的性能,以及图像分类的鲁棒性。
Mar, 2024
我们提出了一种新的ReLU网络输入优化方法,明确考虑了激活模式变化的影响。我们分析了输入空间和激活模式空间中的局部优化步骤,提出了具有优越局部下降性质的方法。为了实现这一目标,我们将激活模式的离散空间转化为可微分表示,并提出了改进每个下降步骤的正则化项。我们的实验证明了所提出的输入优化方法在对抗学习、生成建模和强化学习等各个领域中提升了最新技术的有效性。
Jun, 2024