Oct, 2018

正则化的重要性:神经网络的泛化和优化与其引导的核函数

TL;DR通过研究多层前馈 ReLU 神经网络、交叉熵损失函数、核方法等工具,我们发现标准 l2 正则化器在实际应用中具有很大优越性,并且通过构造一个简单的 d 维数据集,我们证明了有正则化器的神经网络只需要 O (d) 的数据集就能训练成功,而对于无正则化器的 NTK 神经网络,则需要至少 Omega (d^2) 的数据才能训练成功。同时,我们还证明了无限宽度的两层神经网络能够通过有噪音的梯度下降优化正则化器,并且能够得到全局最优解。