往深层网络添加梯度噪声可改善学习效果
本文介绍了一种名为 “HighWay Network” 的新型深度神经网络模型,采用门控单元对信息流进行监控,以实现高效的信息传递,从而克服了训练深度神经网络的问题。
Jul, 2015
本文提出了一种新的神经网络结构,旨在避免消失/爆炸梯度问题,既解决了该问题,又取得了比许多其他结构更好的性能表现,它的核心思想是通过滤波和正交加和来实现非线性激活层之间的结合,从而防止梯度消失或爆炸,并成功应用于超过 50k 层和 10k 个时间步长的神经网络任务。
Oct, 2022
通过智能地确定哪些层需要进行梯度放大,我们提出了一个方法来优化深度学习模型在训练过程中的性能和减少训练时间,该方法分析了训练期间不同层的梯度波动,通过对简单和深度神经网络进行实验,我们证明了该方法可以提高模型的准确性,即使使用更高学习率训练模型。
May, 2023
本文提出了在生成对抗网络训练中,通过引入梯度层来寻找无限维空间中的下降方向,以克服深模型训练中局部最优问题,从而获得更快更好的收敛性能以及更强的表达能力。
Jan, 2018
本文提出了一种新的算法来训练递归神经网络,并将其与随机梯度下降进行了初步比较,结果表明该算法可以在更少的时代内实现与随机梯度下降相似的泛化准确性。该算法来源于与扩散方程相关的非凸优化理论,自然而然地产生了某些看似不相关的深度学习机制。
Jan, 2016
本文研究深度学习中记忆化的作用,探讨了容量,泛化,对抗鲁棒性的联系。作者的实验表明,深度神经网络在优化噪声数据和真实数据时存在数量上的差异,但经过适当的正则化调整(如 dropout),我们可以降低其在噪声数据集上的训练性能,同时不影响在真实数据上的泛化能力。研究结果表明,数据集本身在决定记忆化程度时具有重要作用,而基于梯度优化方法的深度网络的泛化性能不太可能由数据集独立的有效容量来解释。
Jun, 2017
该研究提出了一种名为随机深度的训练方法,通过随机地去掉一部分神经网络层,降低训练时间,提高测试准确率,特别是对于残差网络这样深层数学习模型的训练和测试效果都得到了大幅提升。
Mar, 2016
该研究通过系统实验和理论构建发现,传统方法很难解释为什么大型神经网络的泛化性能良好,即使加入正则化仍然不会改变随机标记训练数据的状态,因为只要参数数量超过数据点数量,简单的两层神经网络就能实现完美的有限样本表达能力。
Nov, 2016