Feb, 2022

神经网络中的特征学习和泛化:随机特征增强

TL;DR本文探讨了二层 ReLU 神经网络梯度下降训练过程中的特征学习,研究了使用 XOR 函数生成的带标签二进制数据,对一定比例的训练标签的干扰具有影响。我们证明了线性分类器并不比随机猜测的效果更好,而使用梯度下降训练二层 ReLU 神经网络可以达到接近噪声率的泛化误差。我们提出了一种新的证明技术,证明了在初始化时,绝大多数神经元都具有随机特征的性质,与有用特征之间的相关性较弱,而梯度下降动态将这些弱随机特征 “放大” 为强有用特征。