Jun, 2023

随机坍塌:梯度噪声如何将 SGD 动态吸引到更简单的子网络

TL;DR本研究揭示了 SGD 存在的强烈隐式偏差,由此驱使过度表达的神经网络倾向于变得更简单,从而显著减少独立参数数量,并改进了泛化能力。