高维度景观探索
我们提出了一种非凸优化算法元启发式方法,基于深度生成网络的训练,能在连续、超高维度的空间中实现有效搜索。通过网络训练,利用采样的局部梯度种群在定制的损失函数内,将网络输出分布函数演化朝向高性能最优点的一个峰值。深度网络架构根据训练过程进行渐进增长,使得该算法能够处理高维空间的维度困境。我们将这一概念应用于一系列标准优化问题,维度高达一千,证明我们的方法在较少函数评估下表现更好,超过了现有算法基准。我们还讨论了深度网络超参数化、损失函数设计和适当网络架构选择在优化中的作用,以及采样的局部梯度所需的批量大小与问题维度无关。这些概念为一类利用可自定义和表达性强的深度生成网络来解决非凸优化问题的算法奠定了基础。
Jul, 2023
本文探讨了时下最先进神经网络的损失函数,以及常用随机梯度下降变体如何优化这些损失函数,探讨中发现每个优化算法在鞍点处会做出不同的选择,从而得出每个算法在鞍点处的特征选择假设。
Dec, 2016
我们研究了非凸和高维环境中梯度下降的优化动力学,重点研究了相位恢复问题作为复杂损失地形的案例研究。我们通过分析优化过程中局部曲率的变化,发现在下降的第一个阶段中,对于中等信噪比,Hessian 矩阵显示出朝向好的极小值的下降方向,然后被困在坏的极小值中。成功的相位恢复通过梯度下降在达到坏的极小值之前朝向好的极小值实现,这种机制解释了为什么在高维极限对应的算法过渡之前就能成功恢复。我们的分析揭示了这种新机制,在有限但非常大的维度下促进梯度下降动力学,同时强调了初始化谱特性对于在复杂高维地形中的优化的重要性。
Mar, 2024
本文探讨了梯度下降在高维中非凸优化领域的应用,通过对浅层网络和窄网络的研究分析了其在全局收敛和局部最小值上的不同表现,研究了随机梯度下降的高维度动态学习中学习率、时间尺度和隐藏单元数量之间的相互作用,并提供了统计物理学中基于确定性描述的 SGD 收敛速率的扩展分析。
Feb, 2022
使用随机梯度下降(SGD)算法对神经网络进行培训,研究表明 SGD 在优化高维度非凸成本函数方面比梯度下降(GD)算法更为有效。
Sep, 2023
本文探讨了基于梯度的算法,如梯度下降、随机梯度下降、其持续变体和 Langevin 算法如何浏览非凸损失景观及其在有限样本复杂度下能否达到最佳泛化误差问题。我们以高维相位恢复问题的损失景观为典型例子,证明了随机梯度下降算法可以在控制参数区域达到完美的泛化性能,而梯度下降算法则不能。我们还运用动力学均场理论从统计物理学的角度分析了这些算法在连续时间、以热启动方式和大系统规模下的全部轨迹,并揭示了景观和算法的若干有趣特性,如梯度下降算法可以从更少的初始信息获得更好的泛化性能。
Mar, 2021
利用粒子混合模型及连续时间梯度下降对机器学习与信号处理中的测量值进行凸函数最小化,特别是在使用单个隐藏层的神经网络进行训练时,可通过 Wasserstein 梯度流达到全局最小值。
May, 2018
本文介绍了使用随机零阶查询优化高维凸函数的问题,提出了两种算法,并表明两种算法只依赖于问题的环境维度的对数收敛率。实证研究证明了理论发现,并表明我们设计的算法在高维场景中优于经典的零阶优化方法。
Oct, 2017