Jan, 2024

两层网络训练中的早期对齐是双刃剑

TL;DR使用一阶优化方法训练神经网络是深度学习实验成功的核心。在小的初始化下,训练动力学的早期阶段会导致神经元朝关键方向对齐,从而引发网络的稀疏表示,这与渐近梯度流的隐式偏差相关。然而,这种稀疏诱导的对齐会导致在最小化训练目标上面临困难,我们还提供了一个简单的数据示例,说明过度参数化的网络无法收敛到全局极小值点,而只能收敛到一个虚假的稳定点。