BriefGPT.xyz
Nov, 2020
梯度饱和:神经网络的学习偏好
Gradient Starvation: A Learning Proclivity in Neural Networks
HTML
PDF
Mohammad Pezeshki, Sékou-Oumar Kaba, Yoshua Bengio, Aaron Courville, Doina Precup...
TL;DR
本文探讨超参数神经网络学习中的梯度下降现象,发现其在最小化交叉熵损失时可能只捕获部分特征,而导致特征的不平衡。作者提出了一种理论解释,并使用动力系统理论中的工具来证明给定训练数据的某些统计结构时可以预期这种情况。此外,作者还提出了一种新的正则化方法来解决梯度饱和问题,并且在实验中得到了验证。
Abstract
We identify and formalize a fundamental
gradient descent
phenomenon resulting in a learning proclivity in
over-parameterized neural networks
.
gra
→