- ICML严格低秩约束优化 -- 一种渐进 $O (rac {1}{t^2})$ 方法
我们研究了一类具有秩规范化的非凸非光滑问题,以促进最优解的稀疏性。我们提出了应用近端梯度下降方法来解决该问题,并通过一种新型的支持集投影操作加速过程,作用于中间更新的奇异值。我们展示了我们的算法能够达到收敛速度为 $O (rac {1}{t - 通过块坐标几何中位下降实现高维度的稳健训练
本文展示了在高维优化问题中,通过将几何中位数只应用于精心选择的坐标块并使用记忆机制,可以保留 0.5 的最优破坏点,以及与 Gm 的 SGD 具有可比的非渐近收敛速率。
- 探索标签平滑化
本文研究标签平滑正则化(LSR)在随机梯度下降等随机算法训练深度神经网络中的理论及其优化效果,发现采用 LSR 能够降低方差加速收敛,提出了一种名为两阶段标签平滑算法(TSLA)的策略,在训练的前期使用 LSR,后期不再使用,通过实验证明其 - 随机梯度下降在非凸问题中的几乎必然收敛
本文针对随机梯度下降算法在非凸问题中的收敛性进行轨迹分析,首先证明了在广泛的步长策略范围内,SGD 生成的迭代序列保持有界并以概率 1 收敛,随后证明了 SGD 避开了严格的鞍点 / 流形的概率是 1,最后证明了算法在采用 Theta (1 - FedPD: 一种具有最优速率和适应非独立同分布数据的联邦学习框架
本文从原始对偶优化角度提出一种新的机器学习算法策略来解决分布式学习过程中的非凸问题,使得此算法成为分布式学习架构中所有特性最优秀的算法框架,并且具有通信效率。
- 一种联合梯度估计和跟踪的分散非凸优化样本和通信复杂度改进方法
该文章提出了一种名为 D-GET 的去中心化随机算法,可以提高大规模机器学习中高度非凸问题的性能,同时在减少多节点通信轮数的同时,访问最少量的局部数据样本,以实现确定性有限和在线问题的小样本复杂度和通信复杂度,并优于现有方法的复杂度。
- ICMLZeno++: 强健完全异步的随机梯度下降算法
提出了 Zeno++,这是一种新的、强大的异步随机梯度下降算法,可容忍工作节点的拜占庭失败,相比之前的工作,Zeno++ 取消了一些对工作节点到服务器通信的不切实际限制,允许匿名工作节点的完全异步更新,任意陈旧的工作节点更新以及无限多的拜占 - 关于非凸过参数化学习中 SGD 的指数收敛
该文研究了使用随机梯度下降方法学习的大型过度参数化模型的收敛速度,并证明了当损失函数为凸函数或满足 Polyak-Lojasiewicz 条件的广泛非凸函数类时,常数步长下 SGD 可以实现指数收敛。
- 不精确非凸牛顿类型方法
提出了非凸问题的近似解决方案;采用了三次正则化和信任域算法的不精确变体,并且可以应用于有限和问题,通过随机子采样法对梯度和 Hessian 进行适当精度逼近,实现了计算效率与最优迭代复杂度的权衡。
- 机器学习的非凸优化
本文阐述了机器学习中的非凸优化问题和直接方法在此领域的成功应用,旨在介绍这一领域的文献和分析非凸问题的简单程序工具。
- 重新审视归一化梯度下降:快速逃逸鞍点
本文研究了优化问题中经典梯度下降方法的自然改进版,即归一化梯度下降,特别关注连续时间下降过程,发现 NGD 能够快速跳出鞍点,几乎不会收敛于鞍点。研究结果可以应用到全局收敛时间的界定。
- 非凸机器学习的二阶优化:一个经验性研究
本文研究了一类基于牛顿方法的优化算法在非凸机器学习问题中的应用,展示了其可以更好地利用曲率信息来逃离平坦区域和鞍点,并在泛化性能方面表现相当于或优于手动调整学习率的随机梯度下降算法。
- 随机梯度下降的数据相关稳定性
我们为随机梯度下降(SGD)建立了数据相关的算法稳定性概念,并利用它来开发新的泛化界限;我们的结果表明,在凸和非凸问题中,预筛选初始化是稳定 SGD 的一种简单数据驱动策略,并允许我们展示出乐观的泛化界限。
- 可证明高效的在线矩阵完成算法:非凸随机梯度下降
该研究提出了一种可证明,高效的在线算法,用于矩阵完成问题。该算法使用随机梯度下降,具有快速的更新时间,并可自然地用于离线设置。
- 关于随机非凸问题的递进式优化
本文提出了基于新的毕业优化技术的一级算法,并确切分析了其全局最优解收敛的实现条件,实现了稳定收敛率。同时,我们还将该算法扩展到随机的非凸优化,并获得了类似的收敛速率。在零阶优化问题下,我们设计了一种变种算法,其收敛速度为 O (d^2/ ε