- 非可分数据和大步长情况下的逻辑回归梯度下降
研究了使用大的恒定步长的逻辑回归问题上的梯度下降(GD)动态。
- 多智能体系统中独立学习的近似全局收敛性
独立学习是一个常用方法来实现大规模多智能体系统的可扩展性,本文研究了两个代表性算法,在基于价值函数和策略的框架中,为近似全局收敛提供了首个有限样本分析结果。这些结果揭示了样本复杂度约为 ϵ^(-2),考虑了智能体间的依赖关系和独立学习实现全 - 缩小差距:在具有神经网络参数化的马尔可夫抽样下实现演员 - 评论员的全球收敛(最新迭代)
该研究论文通过对 Actor-Critic 算法进行全面的理论分析,包括五个实践方面(即 MMCLG 标准),从而建立了全局收敛的样本复杂度界限,为实践应用提供了理论依据。
- EMC$^2$: 高效的 MCMC 负采样对比学习与全局收敛性
提出了一种名为 EMC² 的高效马尔可夫链蒙特卡罗负采样方法,可用于对比学习中的负样本生成,该方法利用自适应 Metropolis-Hastings 子程序在线生成适应样本,并证明了 EMC² 在 T 次迭代中找到全局对比损失的 O (1/ - 去中心化随机次梯度法用于非光滑非凸优化
我们集中研究具有非凸非光滑目标函数的分布式优化问题,特别是非光滑神经网络的分布式训练。我们引入一个统一框架,名为 DSM,用于分析分布式随机次梯度方法的全局收敛性。我们证明了在温和条件下,我们提出的框架的全局收敛性,通过建立生成的序列渐近逼 - 神经网络训练中的并行信任区域方法:超越传统方法
我们提出了一种使用 “加法预条件化信任域策略”(APTS)的新变体训练神经网络(NNs)的方法,该方法是基于可并行化的加法域分解方法应用于神经网络参数的。该方法构建在 TR 框架之上,确保全局收敛到最小化器,并且消除了计算成本昂贵的超参数调 - 联邦自然策略梯度方法用于多任务强化学习
多任务情境下的联邦强化学习,通过策略优化实现分布式决策,并建立了全局收敛性保证。
- 波兰空间中熵正则化的马尔可夫决策过程的费歇 - 劳梯度流
我们研究了具有 Polish 状态和动作空间的无限时段熵正则化马尔可夫决策过程的 Fisher-Rao 策略梯度流的全球收敛性。该流是策略镜像下降方法的连续时间模拟。我们建立了梯度流的全球适定性,并证明其指数级收敛到最优策略。此外,我们证明 - 无限时标平均奖励马尔可夫决策过程中策略梯度算法的遗憾分析
本文研究了无限时间段平均回报马尔可夫决策过程(MDP)。与现有研究不同的是,我们采用了基于通用策略梯度的算法,使其摆脱了线性 MDP 结构的约束。我们提出了一种基于策略梯度的算法,并证明了其全局收敛性质。然后我们证明该算法具有 $\tild - 一种带自适应动量的加速分块近端框架用于非凸非光滑优化
我们提出了一种加速的块近端线性框架与适应性动量 (ABPL$^+$) 用于非凸和非光滑优化。
- 分布式黎曼共轭梯度法在斯蒂芬尔流形上的应用
这篇论文提出了一种分布式黎曼共轭梯度下降(DRCGD)方法,旨在最小化斯蒂弗尔流形上的全局函数,该方法是第一个能够在斯蒂弗尔流形上实现全局收敛的分布式黎曼共轭梯度算法,并且避免了昂贵的黎曼几何运算,从而减少了每个代理所需的计算复杂性。
- 梯度是你所需要的一切?
本文解释了一种新的分析梯度下降算法的理论方法,通过将多粒子无导数优化方法(CBO)解释为梯度下降的随机松弛,证明了 CBO 在对大量非光滑和非凸的目标函数具有成为全局最小化器的全局收敛性
- 一种用于混杂 POMDP 的策略梯度方法
该研究提出了一个新的策略梯度方法,并利用脱机数据建立了一个新的识别结果,解决了条件矩限制,提供了有限样本的非渐变界,最后证明了在某些技术条件下提出的算法的全局收敛性,这是第一份研究脱机设置下的 POMDP 的策略梯度方法的文献。
- 用于求解偏微分方程的 Deep Galerkin 和 PINNs 方法的全局收敛性
此研究论文探讨了如何利用深度学习的方法解决高维偏微分方程的问题,并证明了 Deep Galerkin Method 和 Physics Informed Neural Networks 神经网络逼近器的全局收敛性,随着隐藏单元数的增加,这些 - MM改进的 (方差减少的) 策略梯度和自然策略梯度方法分析
该论文重新审视和改进策略梯度方法、自然策略梯度方法及其方差减少版本在一般平滑策略参数化下的收敛性,尤其是通过正定的策略的 Fisher 信息阵表明了一种最先进的方差减少策略梯度方法在策略参数化方面仍然存在函数逼近误差,而自然策略梯度方法具有 - FedFOR: 无状态异构联邦学习与一阶正则化
本文提出了一种基于分布式学习的新型算法,能够针对数据异质性问题,有效避免因数据分布不同而导致的本地数据更新差异性,提高模型的全局收敛性和学习效率。与现有算法不同,该算法不需要维护全局状态,适用于任意数量的客户端,能够用于网络边缘设备和移动应 - 多项式网络完全正确性验证
通过新的边界方法,我们提出了一种名为 VPN 的算法,具有全局收敛保证,可在 MNIST、CIFAR10 和 STL10 数据集上进行经验证的完整 PN 验证,其关键洞察是我们获得比 IBP 和 DeepT-Fast 更紧密的边界。
- 自然策略梯度原始 - 对偶方法在约束 MDPs 上的收敛性和样本复杂度
研究如何在满足预期总效用的约束条件下最大化预期总回报,提出了一种新的自然策略梯度原始 - 对偶方法来解决 Constrained Markov 决策过程(constrained MDPs)的折扣无限时域下的最优控制问题,在自然策略梯度上升和 - AAAI基于策略的原始对偶法用于凸约束马尔可夫决策过程
研究凸约束马尔可夫决策过程(CMDPs),提出基于策略的原始 - 对偶算法来解决优化问题和约束问题,通过隐藏在问题中的凸性证明了所提出的算法的全局收敛性,并以最优性差距和约束违规性表示,证明了算法的 $O (T^{-1/3})$ 收敛速度。
- 均场极限下带有熵正则化的 MDPs 策略梯度与神经网络逼近的收敛性
本文研究了策略梯度在无限时间,连续状态和动作空间,及熵正则化的马尔可夫决策过程中的全局收敛性,并证明了在符合足够正则化的情况下,梯度流指数级收敛到唯一的稳态解。