BriefGPT.xyz
May, 2022
特征学习的高维渐近性:一个梯度步骤如何改善表示
High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation
HTML
PDF
Jimmy Ba, Murat A. Erdogdu, Taiji Suzuki, Zhichao Wang, Denny Wu...
TL;DR
研究两层神经网络中第一梯度下降步骤,证明第一梯度更新中存在一个秩为 1 的“峰值”,可以使第一层权重与教师模型的线性部分对其,并探索学习率对特征的影响,得出即使一步梯度下降也能带来显著优势的结论。
Abstract
We study the first
gradient descent
step on the first-layer parameters $\boldsymbol{W}$ in a two-layer
neural network
: $f(\boldsymbol{x}) = \frac{1}{\sqrt{N}}\boldsymbol{a}^\top\sigma(\boldsymbol{W}^\top\boldsymb
→