异步联邦强化学习策略梯度更新：算法设计与收敛分析

Apr, 2024

异步联邦强化学习策略梯度更新：算法设计与收敛分析

Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis

Guangchen Lan, Dong-Jun Han, Abolfazl Hashemi, Vaneet Aggarwal, Christopher G. Brinton

TL;DR为了提高强化学习的效率，我们提出了一个名为 AFedPG 的新型异步联邦强化学习框架，通过使用策略梯度（PG）更新在 N 个智能体之间进行协作来构建全局模型。我们设计了延迟自适应预测和归一化更新技术来处理异步环境中滞后策略的挑战，并分析了 AFedPG 的理论全局收敛界限，以及在样本复杂度和时间复杂度方面的优势。最后，我们在三个 MuJoCo 环境中通过实证验证了 AFedPG 的改进性能，并展示了不同计算异质性下的改进效果。

Abstract

To improve the efficiency of reinforcement learning, we propose a novel asynchronous federated reinforcement learning framework termed afedpg

reinforcement learning asynchronous federated reinforcement learning afedpg policy gradient sample complexity

发现论文，激发创造

通过 ADMM 基于梯度更新的方法提高联邦自然策略梯度的通信效率

联邦强化学习通过 ADMM 方法有效降低通信复杂性，实现了与标准联邦自然策略梯度相同的收敛速度。

Oct, 2023

联邦自然策略梯度方法用于多任务强化学习

多任务情境下的联邦强化学习，通过策略优化实现分布式决策，并建立了全局收敛性保证。

Nov, 2023

具约束异构的联邦强化学习

我们研究了具有约束异构性的联邦强化学习（FedRL）问题，通过多个智能体在不同环境下协同学习，解决具有多个约束的强化学习问题，并提出了基于传统策略梯度方法的联邦原始 - 对偶策略优化方法，其中我们关注的两种算法为 FedNPG 和 FedPPO，通过使用深度神经网络，FedPPO 有效地解决了复杂的学习任务。

May, 2024

联合策略梯度方法在存在对手情况下的全局收敛保证

在 Federated Reinforcement Learning 中，我们提出了一种基于策略梯度的方法，能够在存在对抗性代理的情况下，实现全局收敛性保证，并具有较低的样本复杂度。

Mar, 2024

具有拜占庭容错和证明快速收敛性的分散联邦策略梯度

分布式强化学习中，我们提出了第一种去中心化的拜占庭容错方法，通过结合强大的聚合和拜占庭容错协议来降低对受信任中央实体的需求，实验结果表明其对参与代理数量的加速和抵抗不同拜占庭攻击具有可靠性。

Jan, 2024

胜利的势头：异构环境下的协作联邦强化学习

我们提出了两个算法：FedSVRPG-M 和 FedHAPG-M，通过利用动量机制，不论环境异质性的大小，两个算法都可以精确收敛到平均性能函数的一个稳定点，进一步结合方差降低技术或海森矩阵近似，两个算法均达到了最新的收敛结果，其采样复杂度为 O (epsilon^(-3/2)/N)，同时我们的算法线性加速了收敛速度，并突显了在找到共同策略中代理之间合作的好处。

May, 2024

联邦强化学习：马尔可夫采样下的线性加速

本文提出了一种基于联邦学习的强化学习框架，使多方代理协作学习全局模型，同时保护个体数据隐私。对于联邦 TD 和 Q-learning 算法，我们证明了与代理数量成线性的收敛速度，这是首次考虑到马尔可夫噪声和多个本地更新的收敛分析。

Jun, 2022

具有全局动量加速的通信高效联邦学习

提出一种新的联邦学习框架，通过发送全局梯度估计的加速模型来引导本地梯度更新，从而改进了服务器端聚合步骤的稳定性，实现了自然聚合和传递全局更新信息，同时不需要额外的通信成本和客户机中存储过去的模型。在现实数据下进行全面的实证研究，证明了所提方法在精度和通信效率方面相对于现有方法的显着性能，尤其是在低客户端参与率下。

Jan, 2022

加速策略梯度法：关于强化学习中的 Nesterov 动量

加速策略梯度（APG）是一种基于 Nesterov 加速梯度方法的强化学习（RL）算法，通过形式化证明 APG 在真梯度下以接近 1/t^2 的速度收敛，首次给出了 NAG 在 RL 背景下的全局收敛率，数值验证显示 APG 相比标准策略梯度能显著改善收敛行为。

Oct, 2023

大规模马尔可夫潜在博弈的独立策略梯度：更快收敛速率，函数逼近和游戏无关收敛

本文研究策略梯度方法在 Markov 潜在博弈多智能体强化学习问题上的全局非渐进收敛性质，提出新的独立策略梯度算法，证明算法达到 epsilon-Nash 平衡的迭代复杂度为 O (1/epsilon^2)，并在利用函数逼近的样本算法中，建立了样本复杂度为 O (1/epsilon^5) 的界限。同时，还找到了一类独立策略梯度算法，可在玩家对游戏类型无感知的情况下，实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。

Feb, 2022