神经网络训练的早期阶段
使用一阶优化方法训练神经网络是深度学习实验成功的核心。在小的初始化下,训练动力学的早期阶段会导致神经元朝关键方向对齐,从而引发网络的稀疏表示,这与渐近梯度流的隐式偏差相关。然而,这种稀疏诱导的对齐会导致在最小化训练目标上面临困难,我们还提供了一个简单的数据示例,说明过度参数化的网络无法收敛到全局极小值点,而只能收敛到一个虚假的稳定点。
Jan, 2024
通过研究神经网络的有效连接和信息分布的变化,发现网络的第一阶段训练对于后续模型的性能具有决定性的影响,同时遗忘(权重的信息减少)是达到表征学习中的不变性和解缠的关键,训练过程中出现的缺陷期不仅限于生物系统,也出现在学习动态和信息处理基础上的人工智能系统中。
Nov, 2017
本文探讨了随机梯度下降在神经网络早期训练阶段中的超参数,指出通过在初期采用大学习率可以减小梯度的方差和提高梯度的协方差矩阵的条件数,在超过 “盈亏平衡点” 之后,通过随机梯度下降法优化可以隐式地正则化损失曲面的曲率以及梯度中的噪声等问题,这对于神经网络的优化效果具有积极作用,研究这些影响对于泛化性能的影响是一个有前途的研究方向。
Feb, 2020
使用随机梯度下降法训练神经网络时,通过加权平均一部分训练好的参数,可以获得更好的结果,而这种方法不会增加计算成本,可在 CIFAR-10/100,ImageNet 和其他测试集上得到验证。
Jul, 2020
通过对参数的演化,我们全面分析了深度神经网络的学习动态,发现存在三个阶段:接近恒定的重建损失、下降和上升。我们还通过经验实证建立了数据模型,并对单层神经网络证明了阶段的存在。我们的工作为迁移学习提供了新的最佳实践:通过实验证明预训练的分类器在性能达到最优之前应该停止。
Dec, 2023
该研究提出了一种快速、简单的数据依赖初始化过程,可避免幻灭或爆炸梯度,并能够与当前领先的无监督或自监督预训练方法相匹配,同时比前人的方法快大约三个数量级,当与预训练方法结合时,可以显著优于先前的工作,在监督和无监督预训练之间缩小差距。
Nov, 2015
通过对深度线性神经网络的学习动态进行系统分析,我们发现这些网络表现出类似于非线性神经网络的非线性学习现象,包括长时间的平原,然后快速转换到更低误差的解决方案,以及从贪婪的无监督预训练初始条件下的更快收敛等。同时,我们发现在权重的某些特殊初始条件下,非监督预训练可以找到这些初始条件,同时表现出深度独立的学习时间,而随机高斯初始化则做不到。
Dec, 2013
本文研究了学习速率对深度神经网络性能的影响,提出了一种具有可解训练动态的神经网络类,并在实际深度学习环境中验证了其预测,发现小学习率相当于传统理论下的无穷宽神经网络,而大学习率相当于梯度下降动态收敛到更平坦的极小值点,模型中预测的大而稳定的学习率范围得到了验证,同时发现在大学习率下模型性能优越。
Mar, 2020