Jul, 2022

深度学习的隐性进展: SGD 学习计算限制近似对称问题

TL;DR本文通过学习一个 $k$ 位稀疏的 $n$ 位奇偶性来探索大规模数据集、模型规模和训练时间对模型训练计算问题的影响。研究发现神经网络可以成功地学会稀疏的奇偶性,并在训练过程中存在非连续的相变点。理论分析表明,这些观察结果不是通过 Langevin-like 机制解释的,而是通过在人口梯度中的 Fourier 间隙逐渐放大稀疏解来实现。