缓和网络
本文探讨了时下最先进神经网络的损失函数,以及常用随机梯度下降变体如何优化这些损失函数,探讨中发现每个优化算法在鞍点处会做出不同的选择,从而得出每个算法在鞍点处的特征选择假设。
Dec, 2016
本文研究深度神经网络优化问题中的高维非凸性质,通过对数据分布和模型进行分析得出深度线性网络与半修正网络拓扑结构差异明显、非线性问题基于数据分布平滑程度和模型过度参数化的相互影响,通过证明半修正单层网络的渐进连通性,以及通过分析水平面的几何特征来研究梯度下降的调节。实验结果显示,虽然吸引子很小,但这些水平面在所有的学习阶段都保持连通。
Nov, 2016
此研究提出了一种基于全局和局部线性松弛的可扩展启发式方法,用于对训练后的神经网络模型进行建模和求解,具有与最先进的整数线性规划(MILP)求解器和之前的启发式方法相竞争,并且在输入、深度和神经元数量增加时能够产生更好的解。
Jan, 2024
通过使用凸优化理论和稀疏恢复模型来改进神经网络的训练过程,并对其最优权重提供更好的解释,我们的研究侧重于以分段线性激活函数构建的两层神经网络的训练,证明了这些网络可以表达为一个有限维的凸规划问题,其中包括促使稀疏性的正则化项,构成 Lasso 的变种。通过大量的数值实验,我们展示了凸模型可以胜过传统非凸方法,并且对于优化器的超参数并不敏感。
Dec, 2023
本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017
研究神经网络的优化问题,发现常见的损失函数在实现空间上是凸的,通过使用神经网络的近似能力来处理非凸性问题,利用 Sobolev norm 来建立一种限制的参数化空间来实现反稳定性,并证明在受限制的参数化空间内优化仍然可以学习任何可通过无限制优化学习的函数。
May, 2019
本文提出了一种现代观点和一般性的数学框架,用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化,其中包括超参数深度神经网络,并说明这些系统的 PL$^*$ 条件密切相关,这解释了(S)GD 对全局最小值的收敛,并提出了一个放松 PL$^*$ 条件的方法可应用于几乎超参数系统。
Feb, 2020
本文研究了具有随机权重的一层和两层神经网络在非凸损失函数情况下的学习行为,引入了宽平原(WFM)这一概念,并探索了 WFM 如何出现以及在学习中起到什么作用。
May, 2019
我们提出了一种非凸优化算法元启发式方法,基于深度生成网络的训练,能在连续、超高维度的空间中实现有效搜索。通过网络训练,利用采样的局部梯度种群在定制的损失函数内,将网络输出分布函数演化朝向高性能最优点的一个峰值。深度网络架构根据训练过程进行渐进增长,使得该算法能够处理高维空间的维度困境。我们将这一概念应用于一系列标准优化问题,维度高达一千,证明我们的方法在较少函数评估下表现更好,超过了现有算法基准。我们还讨论了深度网络超参数化、损失函数设计和适当网络架构选择在优化中的作用,以及采样的局部梯度所需的批量大小与问题维度无关。这些概念为一类利用可自定义和表达性强的深度生成网络来解决非凸优化问题的算法奠定了基础。
Jul, 2023