BriefGPT.xyz
Ask
alpha
关键词
simpler subnetworks
搜索结果 - 1
随机坍塌:梯度噪声如何将 SGD 动态吸引到更简单的子网络
本研究揭示了 SGD 存在的强烈隐式偏差,由此驱使过度表达的神经网络倾向于变得更简单,从而显著减少独立参数数量,并改进了泛化能力。
PDF
a year ago
Prev
Next