我们在本文中理论上证明了,在实践中经常遇到的大小的非线性深度神经网络的所有层的非凸优化中,梯度下降法可以找到全局最小值。我们的理论仅需要实际过度参数化的程度,而不需要以前的理论。此外,我们证明了网络的大小呈线性增长是最优的速率,除非是对数因子。此外,训练保证的深度神经网络显示出在自然数据集中很好地泛化到未见过的测试样本,但不包括随机数据集。
Aug, 2019
本研究比较了使用纯粹外推梯度信息和比较有效解的两种方法,以解决离散优化问题在机器学习应用中的使用,首先概述了这两种方法及其缺点,然后通过实验证明了它们的性能差异。
Feb, 2024
通过随机梯度下降和先进的基于随机梯度下降的算法找到人工神经网络的适当参数,优化算法在目标函数的某种噪声区域内倾向于选择 “平坦” 最小值,这一趋势与连续时间 SGD 与均匀噪声的选择是不同的。
Jun, 2021
通过研究梯度下降算法以及解决离散化漂移问题,从而改善深度学习中的优化和模型正则化,以及探索平滑正则化与优化之间的相互作用。
Oct, 2023
通过分析神经网络架构的格拉姆矩阵的结构,证明了梯度下降法在针对深度超参数神经网络 ResNet 的多项式时间内实现零训练损失,并且进一步将该分析扩展到了深度残差卷积神经网络并获得了类似的收敛结果。
Nov, 2018
我们提出了机器学习的连续形式,作为经典数值分析中变分计算与微分积分方程问题的解决方法,演示了如何通过离散化来恢复传统的机器学习模型和算法,同时展示了从这种连续形式自然产生的新模型和新算法。并讨论了如何在这个框架下研究泛化误差和隐式正则化问题。
Dec, 2019
利用粒子混合模型及连续时间梯度下降对机器学习与信号处理中的测量值进行凸函数最小化,特别是在使用单个隐藏层的神经网络进行训练时,可通过 Wasserstein 梯度流达到全局最小值。
May, 2018
本文研究表明,在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解,其分析依赖于神经网络的超参数和随机初始化方式,这些经验也可能有助于分析深度网络等其他一阶方法。
Oct, 2018
用梯度流训练具有近似保证的神经网络对目标进行测量,并在连续的带状 d 维单位球上用 L2 正规化,网络为全连接的常数深度和增加的宽度,基于神经切向核(NTK)对非凸倒数第二层的分析,呈现出欠参数化的状态以满足近似所需的自然平滑性假设。
Sep, 2023
本研究提出了一个基于离散时间最优控制问题的深度学习训练算法 (MSA),通过约束权重在离散集合内来实现神经网络的训练,获得了具有竞争力表现的分类结果和非常稀疏的三值网络权重,这有助于在低内存设备上进行模型部署。
Mar, 2018