具有高斯输入的 ConvNet 的全局最优梯度下降
通过随机梯度下降算法和ReLU激活函数,我们分析了卷积滤波器的收敛性。我们的研究不依赖于任何特定形式的输入分布,证明了基于梯度的算法在多项式时间内可以学习卷积滤波器,且收敛速度取决于输入分布的平滑度和卷积核的密度。此理论证明了深度神经网络中的两阶段学习率策略并提出了卷积滤波器的新的较弱恢复保证。
Sep, 2017
研究了在卷积层和ReLU激活下的一层神经网络的学习问题,证明了随机初始化并使用归一化权重的梯度下降可以恢复真实参数,但存在虚假局部最小值,且该局部最小值在梯度下降的动力学中起到了重要作用。
Dec, 2017
本文提出了一种新的随机梯度下降算法,利用随机噪声扰动,无需任何假设于数据分布、网络大小和训练集大小,就能够证明地达到单隐藏层ReLU网络的全局最优性,同时提出了一些一般的泛化保证,此外,数值测试结果也验证了算法和理论的实用性。
Aug, 2018
本文研究表明,在神经网络中使用ReLU激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解,其分析依赖于神经网络的超参数和随机初始化方式,这些经验也可能有助于分析深度网络等其他一阶方法。
Oct, 2018
通过分析神经网络架构的格拉姆矩阵的结构,证明了梯度下降法在针对深度超参数神经网络ResNet的多项式时间内实现零训练损失,并且进一步将该分析扩展到了深度残差卷积神经网络并获得了类似的收敛结果。
Nov, 2018
研究如何使用ReLU激活函数、梯度下降和随机梯度下降来训练深度神经网络,证明在一定条件下,充分的随机权重初始化能够让这些方法在超参数化的深层ReLU网络上达到全局最小值。
Nov, 2018
本研究提出了使用ReLU激活函数的卷积神经网络(CNN)的训练方法,并引入了确切的凸优化公式,其复杂度与数据样本数量、神经元数量和数据维数成多项式关系。特别是,我们开发了一个凸解析框架,利用半无限对偶性来获得两层和三层CNN体系结构的等效凸优化问题。我们首先证明了利用l2范数正则化的凸程序可以全局优化两层CNNs。然后,我们证明了具有单个ReLU层的循环多层CNN训练问题等价于鼓励谱区域中的稀疏性的l1正则化凸优化程序。我们还将这些结果扩展到具有两个ReLU层的三层CNN中,并阐明了不同池化方法的内在建筑偏差作为凸正则化器的观点。
Jun, 2020
本研究通过凸优化理论分析发现,ReLU神经网络通过一种隐含的正则化机制实现高维特征选择,并证明了该等价凸问题可以通过标准凸优化求解器在多项式时间内全局优化。
Oct, 2021
本文研究了基于ReLU激活函数的两层神经网络的凸优化及其群lasso正则化和加速近端梯度算法,该方法在MNIST和CIFAR-10数据集的图像分类方面表现良好。
Feb, 2022
通过使用凸优化理论和稀疏恢复模型来改进神经网络的训练过程,并对其最优权重提供更好的解释,我们的研究侧重于以分段线性激活函数构建的两层神经网络的训练,证明了这些网络可以表达为一个有限维的凸规划问题,其中包括促使稀疏性的正则化项,构成Lasso的变种。通过大量的数值实验,我们展示了凸模型可以胜过传统非凸方法,并且对于优化器的超参数并不敏感。
Dec, 2023