One of the central questions in the theory of deep learning is to understand
how neural networks learn hierarchical features. The ability of deep networks
to extract salient features is crucial to both their outs
我们研究了使用三层神经网络学习标准高斯分布上的层级多项式的问题。我们的主要结论是,在大部分度为 k 的多项式 p 的子类中,通过逐层梯度下降在平方损失上训练的三层神经网络可以在约 d^k 个样本和多项式时间内学习到具有崩溃测试误差的目标 h。这个结果对于核方法是一个严格的改进,在核方法中需要大约 d^(kq) 个样本,并且对于二层网络的现有保证需要目标函数具有低秩性质。我们的研究证明了三层神经网络学习复杂特征的能力,从而可以学习一类广泛的层级函数。