浅入深出:对大规模浅层学习的计算视角
研究浅层神经网络在过参数化情况下,如何使用二次激活函数进行训练并找到全局最优解,结果表明此方法适用于具有任意输入/输出对的任何训练数据,并可使用各种本地搜索启发式方法高效地找到全局最优解。同时,对於差分激活函数,我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解,它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。
Jul, 2017
本研究提出了基于深度神经网络中复合近端框架的优化方法,该方法利用了深度神经网络的组合性质,并通过设计利用强大的凸优化算法,对于解决高维、非凸和非光滑优化问题提供了一种新的方法。
Nov, 2018
研究优化过程中深度神经网络中Hessian谱的演化对动力学的影响,发现对于非批归一化网络,谱中的大量孤立特征值以及聚集在相应特征空间中的梯度的快速出现将影响优化速度,而批归一化网络中这两种效应几乎不存在。
Jan, 2019
本研究结合随机神经网络和张量程序的概念,研究了神经网络的收敛性和梯度动态性,在多种不同体系下,从而表明了该框架不仅可以引导更强的高斯过程的设计,而且还可以深入理解现代架构中的SGD动态。
Feb, 2019
简述:对深度学习的理论研究逐渐深入,从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式,已经有了一些解释;通过在分类任务中使用经典的均匀收敛结果,我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性,从而解决了与深度网络泛化性能相关的一些谜团。
Aug, 2019
本文提出了一种现代观点和一般性的数学框架,用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化,其中包括超参数深度神经网络,并说明这些系统的PL$^*$条件密切相关,这解释了(S)GD对全局最小值的收敛,并提出了一个放松PL$^*$条件的方法可应用于几乎超参数系统。
Feb, 2020
通过实验证明了核方法优于限制宽度的全连接神经网络,并且证实NNGP内核经常优于NT内核,但它们的性能都受到正则化的影响。此外,作者提出了使用 NNGP 和 NT 内核进行预测的最佳实践方法,并在 CIFAR-10 分类任务中取得了最优结果。
Jul, 2020
通过无限宽度的卷积神经网络理论,研究神经网络的本质原理和泛化能力,提出一种基于层次局部性的新原则并证明了其对神经网络学习能力的提升,同时证明了无限宽度的深度卷积神经网络可以打破维数灾难并保持表达能力,并在有限和无限数据情况下提高性能。
Dec, 2021
本研究解决了序列模型中参数设置对回归结果的显著影响问题。通过引入一种过参数化的梯度下降法,该方法能够更好地捕捉固定特征函数的不同顺序的影响,理论结果表明其适应性和泛化能力显著优于传统方法。这一发现为理解神经网络的适应性和泛化潜力提供了新的视角。
Sep, 2024