联合策略梯度方法在存在对手情况下的全局收敛保证

Mar, 2024

联合策略梯度方法在存在对手情况下的全局收敛保证

Global Convergence Guarantees for Federated Policy Gradient Methods with Adversaries

Swetha Ganesh, Jiayu Chen, Gugan Thoppe, Vaneet Aggarwal

TL;DR在 Federated Reinforcement Learning 中，我们提出了一种基于策略梯度的方法，能够在存在对抗性代理的情况下，实现全局收敛性保证，并具有较低的样本复杂度。

Abstract

federated reinforcement learning (FRL) allows multiple agents to collaboratively build a decision making policy without sharing raw trajectories. However, if a small fraction of these agents are adversarial, it can lead to catastrophic results. We propose a →

federated reinforcement learning adversarial agents policy gradient global convergence guarantees sample complexity

发现论文，激发创造

具有拜占庭容错和证明快速收敛性的分散联邦策略梯度

分布式强化学习中，我们提出了第一种去中心化的拜占庭容错方法，通过结合强大的聚合和拜占庭容错协议来降低对受信任中央实体的需求，实验结果表明其对参与代理数量的加速和抵抗不同拜占庭攻击具有可靠性。

Jan, 2024

联邦自然策略梯度方法用于多任务强化学习

多任务情境下的联邦强化学习，通过策略优化实现分布式决策，并建立了全局收敛性保证。

Nov, 2023

胜利的势头：异构环境下的协作联邦强化学习

我们提出了两个算法：FedSVRPG-M 和 FedHAPG-M，通过利用动量机制，不论环境异质性的大小，两个算法都可以精确收敛到平均性能函数的一个稳定点，进一步结合方差降低技术或海森矩阵近似，两个算法均达到了最新的收敛结果，其采样复杂度为 O (epsilon^(-3/2)/N)，同时我们的算法线性加速了收敛速度，并突显了在找到共同策略中代理之间合作的好处。

May, 2024

具约束异构的联邦强化学习

我们研究了具有约束异构性的联邦强化学习（FedRL）问题，通过多个智能体在不同环境下协同学习，解决具有多个约束的强化学习问题，并提出了基于传统策略梯度方法的联邦原始 - 对偶策略优化方法，其中我们关注的两种算法为 FedNPG 和 FedPPO，通过使用深度神经网络，FedPPO 有效地解决了复杂的学习任务。

May, 2024

异步联邦强化学习策略梯度更新：算法设计与收敛分析

为了提高强化学习的效率，我们提出了一个名为 AFedPG 的新型异步联邦强化学习框架，通过使用策略梯度（PG）更新在 N 个智能体之间进行协作来构建全局模型。我们设计了延迟自适应预测和归一化更新技术来处理异步环境中滞后策略的挑战，并分析了 AFedPG 的理论全局收敛界限，以及在样本复杂度和时间复杂度方面的优势。最后，我们在三个 MuJoCo 环境中通过实证验证了 AFedPG 的改进性能，并展示了不同计算异质性下的改进效果。

Apr, 2024

面向联邦强化学习的通信高效共识机制

本文考虑了联邦学习范式下的独立强化学习问题，提出了一种系统效用函数以及基于周期平均法的共识优化方案，在理论分析与数值模拟中证明了其优异性和有效性。

Jan, 2022

有限时间分析对策略异构联合强化学习的应用

通过引入线性函数逼近方法，我们提出了 FedSARSA，一种新颖的联邦在线政策强化学习方案，以应对 FRL 算法的挑战，并提供全面的有限时间误差分析。我们证明了 FedSARSA 收敛于对所有代理都接近最优的政策，该接近程度与异质性水平成正比。此外，我们证明了 FedSARSA 利用代理协作实现了线性加速，随着代理数量的增加而适应性地提升速度，对于固定和自适应步长配置均成立。

Jan, 2024

通过 ADMM 基于梯度更新的方法提高联邦自然策略梯度的通信效率

联邦强化学习通过 ADMM 方法有效降低通信复杂性，实现了与标准联邦自然策略梯度相同的收敛速度。

Oct, 2023

联邦深度强化学习

本文提出了一种新的深度强化学习框架 FedRL，旨在联邦地建立高质量的代理模型，其中考虑到其隐私，并通过利用高斯微分来保护数据和模型的隐私。在 Grid-world 和 Text2Action 领域的实验中，该框架与各种基线模型进行了比较。

Jan, 2019

f - 策略梯度：一种使用 f - 散度的目标条件化强化学习的通用框架

此研究论文介绍了一种名为 $f$-PG 的新型鼓励探索方法，通过最小化智能体状态访问分布与目标之间的 f - 分歧来实现稀疏奖励环境下的优化策略，同时引入了熵正则化策略优化目标 $s$-MaxEnt RL 用于优化度量为 L2 的奖励，在多个环境中展示了与标准策略梯度方法相比更好的性能。

Oct, 2023