神经网络训练的早期阶段

ICLRFeb, 2020

The Early Phase of Neural Network Training

Jonathan Frankle, David J. Schwab, Ari S. Morcos

TL;DR本文研究神经网络学习的早期阶段，分析了神经网络在此期间的变化，发现深度网络在使用随机权重重初始化时不具有稳健性，但利用模糊输入或辅助自监督任务进行预训练即可近似监督网络的变化。

Abstract

Recent studies have shown that many important aspects of neural network learning take place within the very earliest iterations or epochs of training. For example, sparse, trainable sub-networks emerge (Frankle e

neural network training early phase weight distribution pre-training

发现论文，激发创造

两层网络训练中的早期对齐是双刃剑

使用一阶优化方法训练神经网络是深度学习实验成功的核心。在小的初始化下，训练动力学的早期阶段会导致神经元朝关键方向对齐，从而引发网络的稀疏表示，这与渐近梯度流的隐式偏差相关。然而，这种稀疏诱导的对齐会导致在最小化训练目标上面临困难，我们还提供了一个简单的数据示例，说明过度参数化的网络无法收敛到全局极小值点，而只能收敛到一个虚假的稳定点。

Jan, 2024

深度神经网络中的关键学习时期

通过研究神经网络的有效连接和信息分布的变化，发现网络的第一阶段训练对于后续模型的性能具有决定性的影响，同时遗忘（权重的信息减少）是达到表征学习中的不变性和解缠的关键，训练过程中出现的缺陷期不仅限于生物系统，也出现在学习动态和信息处理基础上的人工智能系统中。

Nov, 2017

深度神经网络优化轨迹上的盈亏平衡点

本文探讨了随机梯度下降在神经网络早期训练阶段中的超参数，指出通过在初期采用大学习率可以减小梯度的方差和提高梯度的协方差矩阵的条件数，在超过 “盈亏平衡点” 之后，通过随机梯度下降法优化可以隐式地正则化损失曲面的曲率以及梯度中的噪声等问题，这对于神经网络的优化效果具有积极作用，研究这些影响对于泛化性能的影响是一个有前途的研究方向。

Feb, 2020

具有后阶段权重的神经网络

使用随机梯度下降法训练神经网络时，通过加权平均一部分训练好的参数，可以获得更好的结果，而这种方法不会增加计算成本，可在 CIFAR-10/100，ImageNet 和其他测试集上得到验证。

Jul, 2020

定性描述神经网络优化问题

本文通过分析，发现现代的神经网络足以直接用随机梯度下降算法实现庞大的非线性优化任务，并且能够克服局部最优解的困难。

Dec, 2014

理解和利用神经网络的学习阶段

通过对参数的演化，我们全面分析了深度神经网络的学习动态，发现存在三个阶段：接近恒定的重建损失、下降和上升。我们还通过经验实证建立了数据模型，并对单层神经网络证明了阶段的存在。我们的工作为迁移学习提供了新的最佳实践：通过实验证明预训练的分类器在性能达到最优之前应该停止。

Dec, 2023

卷积神经网络的数据相关初始化

该研究提出了一种快速、简单的数据依赖初始化过程，可避免幻灭或爆炸梯度，并能够与当前领先的无监督或自监督预训练方法相匹配，同时比前人的方法快大约三个数量级，当与预训练方法结合时，可以显著优于先前的工作，在监督和无监督预训练之间缩小差距。

Nov, 2015

深度线性神经网络学习非线性动力学的精确解

通过对深度线性神经网络的学习动态进行系统分析，我们发现这些网络表现出类似于非线性神经网络的非线性学习现象，包括长时间的平原，然后快速转换到更低误差的解决方案，以及从贪婪的无监督预训练初始条件下的更快收敛等。同时，我们发现在权重的某些特殊初始条件下，非监督预训练可以找到这些初始条件，同时表现出深度独立的学习时间，而随机高斯初始化则做不到。

Dec, 2013

深度学习的大学习率阶段：弹射机制

本文研究了学习速率对深度神经网络性能的影响，提出了一种具有可解训练动态的神经网络类，并在实际深度学习环境中验证了其预测，发现小学习率相当于传统理论下的无穷宽神经网络，而大学习率相当于梯度下降动态收敛到更平坦的极小值点，模型中预测的大而稳定的学习率范围得到了验证，同时发现在大学习率下模型性能优越。

Mar, 2020

无监督预训练鼓励适度稀疏

本文解释了预训练神经网络成功的原因，通过实验观察到预训练可以在神经网络中引入隐藏单元活性的稀疏性，从而得到更好的预测性能。

Dec, 2013