Aug, 2018

线性可分数据上的 ReLU 网络学习:算法,最优性和泛化

TL;DR本文提出了一种新的随机梯度下降算法,利用随机噪声扰动,无需任何假设于数据分布、网络大小和训练集大小,就能够证明地达到单隐藏层 ReLU 网络的全局最优性,同时提出了一些一般的泛化保证,此外,数值测试结果也验证了算法和理论的实用性。