具约束异构的联邦强化学习

May, 2024

Federated Reinforcement Learning with Constraint Heterogeneity

Hao Jin, Liangyu Zhang, Zhihua Zhang

TL;DR我们研究了具有约束异构性的联邦强化学习（FedRL）问题，通过多个智能体在不同环境下协同学习，解决具有多个约束的强化学习问题，并提出了基于传统策略梯度方法的联邦原始 - 对偶策略优化方法，其中我们关注的两种算法为 FedNPG 和 FedPPO，通过使用深度神经网络，FedPPO 有效地解决了复杂的学习任务。

Abstract

We study a federated reinforcement learning (FedRL) problem with constraint heterogeneity. In our setting, we aim to solve a reinforcement learning problem with multiple constraints while $N$ training agents are located in $N$ different environments with limited access to the constrain

federated reinforcement learning constraint heterogeneity collaborative learning policy optimization methods deep neural networks

发现论文，激发创造

联邦自然策略梯度方法用于多任务强化学习

多任务情境下的联邦强化学习，通过策略优化实现分布式决策，并建立了全局收敛性保证。

Nov, 2023

胜利的势头：异构环境下的协作联邦强化学习

我们提出了两个算法：FedSVRPG-M 和 FedHAPG-M，通过利用动量机制，不论环境异质性的大小，两个算法都可以精确收敛到平均性能函数的一个稳定点，进一步结合方差降低技术或海森矩阵近似，两个算法均达到了最新的收敛结果，其采样复杂度为 O (epsilon^(-3/2)/N)，同时我们的算法线性加速了收敛速度，并突显了在找到共同策略中代理之间合作的好处。

May, 2024

联邦深度强化学习

本文提出了一种新的深度强化学习框架 FedRL，旨在联邦地建立高质量的代理模型，其中考虑到其隐私，并通过利用高斯微分来保护数据和模型的隐私。在 Grid-world 和 Text2Action 领域的实验中，该框架与各种基线模型进行了比较。

Jan, 2019

联合策略梯度方法在存在对手情况下的全局收敛保证

在 Federated Reinforcement Learning 中，我们提出了一种基于策略梯度的方法，能够在存在对抗性代理的情况下，实现全局收敛性保证，并具有较低的样本复杂度。

Mar, 2024

异步联邦强化学习策略梯度更新：算法设计与收敛分析

为了提高强化学习的效率，我们提出了一个名为 AFedPG 的新型异步联邦强化学习框架，通过使用策略梯度（PG）更新在 N 个智能体之间进行协作来构建全局模型。我们设计了延迟自适应预测和归一化更新技术来处理异步环境中滞后策略的挑战，并分析了 AFedPG 的理论全局收敛界限，以及在样本复杂度和时间复杂度方面的优势。最后，我们在三个 MuJoCo 环境中通过实证验证了 AFedPG 的改进性能，并展示了不同计算异质性下的改进效果。

Apr, 2024

基于双规范化的联邦离线策略优化

提出了一种名为 DRPO 的离线联邦策略优化算法，通过使用双重正则化来解决离线联邦强化学习中的两级分布变化问题，实现了分布式智能决策的显著性能提升。

May, 2024

带有生成模型的压缩联邦强化学习

提出了一种通信高效的联合强化学习方法，该方法利用周期性聚合和压缩机制将本地代理的压缩估计聚合到一个中央服务器上，首次对这两种机制进行了有限时间分析，并在实验中验证了算法的收敛性行为。

Mar, 2024

有限时间分析对策略异构联合强化学习的应用

通过引入线性函数逼近方法，我们提出了 FedSARSA，一种新颖的联邦在线政策强化学习方案，以应对 FRL 算法的挑战，并提供全面的有限时间误差分析。我们证明了 FedSARSA 收敛于对所有代理都接近最优的政策，该接近程度与异质性水平成正比。此外，我们证明了 FedSARSA 利用代理协作实现了线性加速，随着代理数量的增加而适应性地提升速度，对于固定和自适应步长配置均成立。

Jan, 2024

个性化联邦超网络用于多任务强化学习的隐私保护

本文介绍了一种新型的多智能体强化学习模型 Personalized Federated Hypernetworks (PFH)，并将其应用于少样本迁移 (transfer) 学习和 RL 场景中的能源需求响应 (price-setting)，实验结果表明 PFH 能够在保持数据安全的前提下达到多个任务的高效学习。

Oct, 2022

通过 ADMM 基于梯度更新的方法提高联邦自然策略梯度的通信效率

联邦强化学习通过 ADMM 方法有效降低通信复杂性，实现了与标准联邦自然策略梯度相同的收敛速度。

Oct, 2023