基于梯度的双变量 DAG 学习中的全局最优性

Jun, 2023

基于梯度的双变量 DAG 学习中的全局最优性

Global Optimality in Bivariate Gradient-based DAG Learning

Chang Deng, Kevin Bello, Bryon Aragam, Pradeep Ravikumar

TL;DR该论文证明了一种简单的路径追踪优化方案可全局收敛于双变量情况下人口损失的全局最小值，解决了学习无环有向图模型中非凸优化问题的全局优化难题。

Abstract

Recently, a new class of non-convex optimization problems motivated by the statistical problem of learning an acyclic directed graphical model from data has attracted significant interest. While existing work use

non-convex optimization acyclic directed graphical model first-order optimization global optimality population loss

发现论文，激发创造

一类非凸非凹极小极大问题的全局收敛与方差缩减优化

研究非凸极小问题的解决方案，提出两种算法 AGDA 和随机 AGDA，以及一种方差缩减算法，可以应用于类似生成对抗网络和对抗学习等新兴机器学习应用。

Feb, 2020

收敛于全局最优解的学习算法的稳定性和泛化性

本文通过建立黑盒稳定性结果，仅依赖于学习算法的收敛和损失函数最小值周围的几何形态，为收敛到全局最小值的学习算法建立新的泛化界限，适用于满足 Polyak-Lojasiewicz（PL）和二次增长（QG）条件的非凸损失函数以及一些具有线性激活的神经网络，并使用黑盒结果来证明 SGD、GD、RCD 和 SVRG 等优化算法的稳定性在 PL 和强凸设置中具有可拓展性，同时指出存在简单的具有多个局部最小值的神经网络，在 PL 设置下 SGD 稳定，但 GD 不稳定。

Oct, 2017

过度参数化的非线性学习：梯度下降是否走过了最短路径？

该论文讨论在数据过度参数化时，第一阶段优化方案（如随机梯度下降）的性质。作者发现，当损失函数在初始点的最小邻域内具有某些属性时，迭代会以几何速率收敛于全局最优解，会以接近直接的路线从初始点到达全局最优解，其中，通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降（SGD），作者开发了新的鞅技巧，以保证 SGD 绝不会离开初始化的小邻域。

Dec, 2018

基于梯度的神经 DAG 学习

本文提出了一种基于得分的方法，利用神经网络在连续约束优化理论的基础上，允许处理变量之间的非线性关系，用于学习有向无环图，相对于其他连续优化方法，这种方法在很多任务上表现更好，在因果推断的重要度量上与现有的贪婪搜索方法相比具有竞争力。在合成存储和真实世界数据集上进行了试验。

Jun, 2019

极大极小优化的最终迭代收敛速率

该研究论文阐述了针对非凸函数最优化问题中的后向迭代收敛的挑战性，介绍了哈密顿梯度下降算法以及协作优化算法，并证明了这些算法在某些情况下表现出线性收敛性。

Jun, 2019

ProGO：概率全局优化器

我们开发了一种基于多维积分的概率方法，用于求解全局最优解，该方法不需要梯度信息，具有收敛性和适用于任意维度的特性。通过在多个非凸测试函数上的实证研究，我们发现该方法在遗憾值和收敛速度方面优于许多现有的状态 - of-the-art 方法。

Oct, 2023

深度神经网络的全局最优条件

该论文研究了使用平方误差损失函数的深度线性和非线性神经网络的误差景象。对于深度线性神经网络，研究者提出了必要和充分条件，以判断风险函数的一个临界点是否为全局最小值，并且这些条件提供了一种高效检查全局最优性的方法。论文还将这些结果扩展到深度非线性神经网络，并在更有限的函数空间设置中证明了类似的充分条件。

Jul, 2017

策略梯度方法的全局最优性保证

该研究探讨了结构性特征对于使得 Policy gradients methods 有权达到最优点的影响，并且当这些条件变强时，可以证明其满足 Polyak-lojasiewicz 条件从而有较快的收敛速度。

Jun, 2019

交替近端梯度步骤用于（随机）非凸 - 凹极小极大问题

本文针对非凸凹的情况，在最小极大问题中应用交替梯度下降方法找到临界点并证明了一种新的全局收敛速率。

Jul, 2020

BPGrad：通过分支和修剪实现深度学习中的全局最优化

通过分支和修剪技术，基于 Lipschitz 连续性的 BPGrad 近似算法可以全局优化深度模型，经实验证明在目标识别、检测和分割任务中优于 Adagrad、Adadelta、RMSProp 和 Adam。

Nov, 2017