- 非光滑非凸优化中随机次梯度方法的收敛性保证
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局 - 应用于深度学习的非凸随机 Bregman 近端梯度方法
研究一系列随机 Bregman 近端梯度法(SBPG)方法,用于训练具有非 Lipschitz 梯度的非凸目标函数,及应用于神经网络训练中具有多项式内核函数的深度神经网络的优化算法。证明了 SBPG 及其动量版本(MSBPG)在非凸优化问题 - Shuffle SGD 总是比 SGD 更好:对任意数据顺序的 SGD 的改进分析
该论文研究了随机梯度下降算法在非凸优化问题中的迭代次数,发现采用随机 / 单扰动的随机梯度下降算法的收敛速度要快于经典的随机梯度下降算法,实验证明其具有更好的性能。
- 具收敛性保证的非光滑优化的 Adam 家族方法
研究了 Adam 族方法在非光滑优化尤其是在训练非光滑神经网络方面的收敛性,提出了一个采用双时间尺度更新方案的新颖框架并证明了其在温和假设下的收敛性,介绍了一些植入了梯度剪切技术的随机次梯度方法并通过实验证明其高效性和健壮性。
- 超参数化情况下随机重排的快速收敛及 Polyak-Łojasiewicz 条件
研究了过度参数化的机器学习模型,提出了抽样无替换的 SGD 变体 - random reshuffling-,并证明了在一些假设条件下,它可以比 SGD 更快地收敛。此外,对于 Polyak-L ojasiewicz (PL) 函数类问题, - 一种用于随机双层优化的全一阶方法
本研究提出一种全一阶随机逼近方法用于解决双层无约束随机优化问题,该方法具有收敛性及优异的实际性能,并且可以使用动量辅助的梯度估计器进一步提高收敛速度。
- 通过词典目标实现强化学习的观察稳健性和不变性
本文研究了部分可观测马尔可夫决策问题中的策略鲁棒性,并提出了一种能够兼顾奖励性能和稳健性的方案,能够应用于任何策略梯度算法,并且保持原动态规划算法的收敛性。经过对安全关键 RL 环境的数值实验表明,本文提出的方法能够在引入策略滚动中的状态误 - ICML梯度下降上升的收敛性:一个严格的局部分析
本文探讨了梯度下降上升(GDA)方法在生成对抗网络中极小化最大化优化问题的收敛性质及实现方式,研究表明 GDA 在本地条件数为 y 时的步长比至少需要为 θ(Kappa),并支持在随机 GDA 和额外梯度方法(EG)中的应用。
- ICML关于联邦学习的二阶优化方法
本研究考虑分布式学习中的标准优化方法 FedAvg,对比了多种具有良好收敛性质的二阶分布式方法,发现 FedAvg 表现出乎意料好,提出了一种使用二阶局部信息和全局线性搜索的新变种。
- ICML随机梯度剪裁的稳定性和收敛性:超越 Lipschitz 连续性和平滑性
本文提出了一种修剪随机梯度(子)梯度法(SGD)的收敛性研究,特别是对于具有快速增长次梯度的非光滑凸函数。研究表明,修剪对 SGD 的稳定性有益,并且修剪 SGD 算法在许多情况下具有有限的收敛速率。同时,我们还研究了带有动量的修剪方法的收 - 近端和联邦随机重洗
本篇论文提出两种新的优化算法:ProxRR 和 FedRR,应用于分布式问题的改进。这些算法在收敛性和计算复杂度方面具有明显优势,并在重要的最优化任务中发挥出色。
- 压缩联邦学习:统一分析和精确保证
通过定期压缩通信的算法,分析其收敛性并探讨其与局部计算的关系,提出了一种本地梯度追踪方案,以缓解数据异质性,实现了更快的收敛速度和更好的算法效果。
- 关于策略梯度方法的理论:最优性、逼近和分布偏移
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避 - 多智能体系统中基于最佳反应策略类型学习的收敛性和最优性
本文提供了对于一个多智能体系统,当一个智能体需要在不事先知道其他智能体如何行动的情况下协调行动时,如何计算潜在策略的后验信念,并提出两个关键设计参数的理论指导。
- 超参数神经网络的自然梯度下降快速收敛
本文首次分析了自然梯度下降在非线性神经网络中的收敛速度,发现若序列导数矩阵显满秩且在初始化附近稳定,则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络,作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持, - 部分可观测环境下的策略梯度:近似和收敛
本研究针对部分可观察环境进行了政策梯度算法的开发和分析,使用马尔可夫策略类,对于开发技术工具和分析算法的效果进行了评估并进行了理论拓展,为政策梯度算法在现实应用中的使用提供了新的认识。
- 深度学习中块坐标下降的全局收敛性
本文介绍了一种针对深度学习中常用的两分和三分网络结构的 Block Coordinate Descent 方法,论证了它的全局收敛性和迭代收敛速度。
- Langevin Monte Carlo 和 JKO splitting
本篇论文探讨基于 Langevin 扩散的算法如何通过 Wasserstein 梯度流的理论和算子分裂方法来解决概率密度函数的两个特定泛函的梯度流,从而得到了一些关于算法收敛性的非渐近性结果。
- 提升变分推断:优化视角
本文研究了基于 boosting 的变分推断算法在优化视角下的收敛性质及其与经典 Frank-Wolfe 算法之间的联系,提出了收敛的充分条件,明确了算法的收敛速率和简化方法,并在概率模型和理论特性之间架起了桥梁。
- 熵正则化马尔科夫决策过程的统一视角
提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架,通过使用条件熵来对联合状态 - 动作分布进行正则化,将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging