高维度景观探索

ICLRDec, 2014

Explorations on high dimensional landscapes

Levent Sagun, V. Ugur Guney, Gerard Ben Arous, Yann LeCun

TL;DR本文旨在证明高维度空间中定义的某些非凸函数有一个只包含其临界点大部分的数值狭窄区间的存在，并通过对 MNIST 数据集中的师生网络的实验观察得出了类似的结论，并发现梯度下降和随机梯度下降方法可以在相同步数内达到此水平。

Abstract

Finding minima of a real valued non-convex function over a high dimensional space is a major challenge in science. We provide evidence that some such functions that are defined on high dimensional domains have a narrow band of values whose pre-image contains the bulk of its

non-convex function high-dimensional space critical points spin glasses deep networks

发现论文，激发创造

基于生成神经网络的超高维非凸全局优化

我们提出了一种非凸优化算法元启发式方法，基于深度生成网络的训练，能在连续、超高维度的空间中实现有效搜索。通过网络训练，利用采样的局部梯度种群在定制的损失函数内，将网络输出分布函数演化朝向高性能最优点的一个峰值。深度网络架构根据训练过程进行渐进增长，使得该算法能够处理高维空间的维度困境。我们将这一概念应用于一系列标准优化问题，维度高达一千，证明我们的方法在较少函数评估下表现更好，超过了现有算法基准。我们还讨论了深度网络超参数化、损失函数设计和适当网络架构选择在优化中的作用，以及采样的局部梯度所需的批量大小与问题维度无关。这些概念为一类利用可自定义和表达性强的深度生成网络来解决非凸优化问题的算法奠定了基础。

Jul, 2023

深度神经网络损失曲面优化的实证分析

本文探讨了时下最先进神经网络的损失函数，以及常用随机梯度下降变体如何优化这些损失函数，探讨中发现每个优化算法在鞍点处会做出不同的选择，从而得出每个算法在鞍点处的特征选择假设。

Dec, 2016

从零到英雄：艺术简单初始条件下的局部曲率导致远离不良最小值

我们研究了非凸和高维环境中梯度下降的优化动力学，重点研究了相位恢复问题作为复杂损失地形的案例研究。我们通过分析优化过程中局部曲率的变化，发现在下降的第一个阶段中，对于中等信噪比，Hessian 矩阵显示出朝向好的极小值的下降方向，然后被困在坏的极小值中。成功的相位恢复通过梯度下降在达到坏的极小值之前朝向好的极小值实现，这种机制解释了为什么在高维极限对应的算法过渡之前就能成功恢复。我们的分析揭示了这种新机制，在有限但非常大的维度下促进梯度下降动力学，同时强调了初始化谱特性对于在复杂高维地形中的优化的重要性。

Mar, 2024

高维双层神经网络中的随机梯度下降相图

本文探讨了梯度下降在高维中非凸优化领域的应用，通过对浅层网络和窄网络的研究分析了其在全局收敛和局部最小值上的不同表现，研究了随机梯度下降的高维度动态学习中学习率、时间尺度和隐藏单元数量之间的相互作用，并提供了统计物理学中基于确定性描述的 SGD 收敛速率的扩展分析。

Feb, 2022

随机梯度下降在玻璃能量地形中恢复高维信号的效果优于梯度下降

使用随机梯度下降（SGD）算法对神经网络进行培训，研究表明 SGD 在优化高维度非凸成本函数方面比梯度下降（GD）算法更为有效。

Sep, 2023

高维推断中的非凸损失在线随机梯度下降

研究了 SGD 算法在高维参数空间下最简单在线版本的性能，通过对样本数量的阈值来确定参数估计的一致性，其阈值是多项式维度的，取决于信息指数。

Mar, 2020

随机性有助于驾驭崎岖的地形：在相位恢复问题中比较基于梯度下降的算法

本文探讨了基于梯度的算法，如梯度下降、随机梯度下降、其持续变体和 Langevin 算法如何浏览非凸损失景观及其在有限样本复杂度下能否达到最佳泛化误差问题。我们以高维相位恢复问题的损失景观为典型例子，证明了随机梯度下降算法可以在控制参数区域达到完美的泛化性能，而梯度下降算法则不能。我们还运用动力学均场理论从统计物理学的角度分析了这些算法在连续时间、以热启动方式和大系统规模下的全部轨迹，并揭示了景观和算法的若干有趣特性，如梯度下降算法可以从更少的初始信息获得更好的泛化性能。

Mar, 2021

使用最优传输理论分析过参数化模型上梯度下降的全局收敛性

利用粒子混合模型及连续时间梯度下降对机器学习与信号处理中的测量值进行凸函数最小化，特别是在使用单个隐藏层的神经网络进行训练时，可通过 Wasserstein 梯度流达到全局最小值。

May, 2018

学习指导随机搜索

研究无导数优化高维函数的方法，提出一种基于在线学习的方法，同时学习流形和优化函数，能够显著降低样本复杂性，经过实验证明有效性高于其他无导数优化算法。

Apr, 2020

高维随机零阶优化

本文介绍了使用随机零阶查询优化高维凸函数的问题，提出了两种算法，并表明两种算法只依赖于问题的环境维度的对数收敛率。实证研究证明了理论发现，并表明我们设计的算法在高维场景中优于经典的零阶优化方法。

Oct, 2017