Mar, 2024

叠加作为加速的梯度下降

TL;DR通过逐渐增加层数并将新层的参数从旧层复制而初始化,堆叠是一种启发式技术,已被证明可以提高训练深度神经网络的效率。本文提出了堆叠的一个理论解释:即堆叠实现了一种 Nesterov 加速梯度下降的形式。该理论还涵盖了更简单的模型,如提升方法中构建的加法集成,并为每轮提升中新分类器的初始化提供了一个广泛使用的启发式实践的解释。我们还证明了对于某些深度线性残差网络,堆叠确实提供了加速训练,通过对 Nesterov 加速梯度方法中的潜在函数进行了新的分析,该函数允许更新中的错误。我们进行了概念验证实验来验证我们的理论。