- 有限和平凡导数光滑优化的复杂性研究
本文研究了一种优化问题,在多项式朗托泽维奇条件下,通过梯度方法在分布式环境中找到次优解,提出了一个去中心化一阶方法,并给出了相应的下界。
- 自适应镜像下降双层优化
我们提出了一类基于镜像下降的高效自适应双层优化方法,用于求解非凸双层优化问题,其中上层问题可能是非凸的且具有非光滑正则化,而下层问题也是非凸的但满足 Polyak-Lojasiewicz 条件。我们提出了一种基于镜像下降的高效自适应投影梯度 - 深度残差网络对神经常微分方程的隐式正则化
深度残差网络与神经常微分方程之间的离散化联系被建立,证明了在特定条件下网络收敛至全局最小值。
- 随机近端点算法的方差降低技术
在有限和求和最小化的背景下,方差缩减技术被广泛应用于改进现有随机梯度方法的性能,本研究首次提出了针对随机近端点算法的方差缩减技术研究,介绍了针对平滑凸函数的 SVRG、SAGA 和其变种的随机近端版本,并且提供了迭代和目标函数值的多个收敛结 - DASHA:分布式非凸优化,包含通信压缩,最优化 Oracle 复杂度,无须客户端同步
我们开发和分析了 DASHA:一种新的非凸分布式优化问题方法,同时考虑了通信复杂度和理论 oracle。我们的新方法改善了以前的最先进的方法,特别是在有限和期望形式的本地函数的情况下。新的方法发送压缩向量,并且永远不会同步节点,这使得它们对 - 无强凸性的极小化优化的更快单循环算法
本文研究了使用交替 GDA 和平滑 GDA 算法解决纳什均衡问题的收敛速度,证明了在满足 Polyak-Lojasiewicz 条件时,这两种算法分别需要 O (κ²ε⁻²) 和 O (κε⁻²) 次迭代即可找到 ε- 极小点,而在类似条件 - 浅层神经网络的次二次超参数化
本文采用 Polyak-Lojasiewicz 条件和随机矩阵理论,提供了一个分析框架,允许我们在基本浅层神经网络中同时训练所有层并达到网络宽度的理想亚二次标度。
- 结构化非凸函数的 SGD:学习率、小批量和插值
本文研究了随机梯度下降(SGD)在优化非凸函数方面的应用,提出了一些收敛理论,说明了在满足结构性假设的非凸问题中,SGD 能够收敛到全局最小值,分析过程基于一个期望残差条件,相比之前的假设更加宽松。
- 分布式非凸优化的原始对偶随机梯度下降算法
本文提出了一种适用于任意连接通信网络和任何光滑(可能是非凸的)代价函数的分布式原始 - 对偶随机梯度下降(SGD)算法,证明了该算法实现了常数参数的输出线性收敛到全局最优的邻域并展示了实验结果与基线集中式 SGD 和最近提出的分布式 SGD - MM周期平均的本地随机梯度下降:更紧密的分析和自适应同步
本文研究了一种名为 local distributed SGD 的分布式优化算法,其中数据在计算节点之间进行划分,计算节点进行本地更新,定期交换模型以进行平均化,并对其进行收敛分析,结果表明它可以大大降低通信成本并且适用性比当前理论推测的更 - 策略梯度方法的全局最优性保证
该研究探讨了结构性特征对于使得 Policy gradients methods 有权达到最优点的影响,并且当这些条件变强时,可以证明其满足 Polyak-lojasiewicz 条件从而有较快的收敛速度。
- 使用迭代一阶方法解决一类非凸极小极大博弈
利用多阶梯度下降上升算法解决机器学习中非凸场景下最小最大鞍点问题,给出了基于 Polyak-Lojasiewicz 条件的算法和 Concave 最大玩家目标函数的算法,并在 Fashion-MNIST 数据集上进行公平分类实验。
- 在 Polyak-Łojasiewicz 条件下解决非凸非凹 Min-Max 博弈
本文研究求解一个 min-max 零和游戏的问题,在非凸非凹的情况下证明了一种简单的多步梯度下降 - 上升算法可以找到该问题的一个 epsilon - 一阶稳定点,其中一个玩家的目标满足 Polyak-Lojasiewicz 条件。
- 关于非凸过参数化学习中 SGD 的指数收敛
该文研究了使用随机梯度下降方法学习的大型过度参数化模型的收敛速度,并证明了当损失函数为凸函数或满足 Polyak-Lojasiewicz 条件的广泛非凸函数类时,常数步长下 SGD 可以实现指数收敛。
- NIPS重新审视差分隐私的经验风险最小化问题:更快且更广泛
本文研究不同设置下差分隐私经验风险最小化问题,提出了比以前更少的梯度复杂度的算法,并从凸损失函数推广到满足 Polyak-Lojasiewicz 条件的非凸函数,给出比传统算法更紧的上界。
- MMSCSG 方法求解非凸有限和优化问题
开发了基于 Stochastically Controlled Stochastic Gradient Method 的算法,可用于非凸的有限和优化问题,并取得了优于随机梯度下降的表现。在满足 Polyak-Lojasiewicz Cond