通过 ADMM 基于梯度更新的方法提高联邦自然策略梯度的通信效率

Oct, 2023

通过 ADMM 基于梯度更新的方法提高联邦自然策略梯度的通信效率

Improved Communication Efficiency in Federated Natural Policy Gradient via ADMM-based Gradient Updates

Guangchen Lan, Han Wang, James Anderson, Christopher Brinton, Vaneet Aggarwal

TL;DR联邦强化学习通过 ADMM 方法有效降低通信复杂性，实现了与标准联邦自然策略梯度相同的收敛速度。

Abstract

federated reinforcement learning (FedRL) enables agents to collaboratively train a global policy without sharing their individual data. However, high communication overhead remains a critical bottleneck, particul

federated reinforcement learning communication overhead natural policy gradient admm convergence rate

发现论文，激发创造

异步联邦强化学习策略梯度更新：算法设计与收敛分析

为了提高强化学习的效率，我们提出了一个名为 AFedPG 的新型异步联邦强化学习框架，通过使用策略梯度（PG）更新在 N 个智能体之间进行协作来构建全局模型。我们设计了延迟自适应预测和归一化更新技术来处理异步环境中滞后策略的挑战，并分析了 AFedPG 的理论全局收敛界限，以及在样本复杂度和时间复杂度方面的优势。最后，我们在三个 MuJoCo 环境中通过实证验证了 AFedPG 的改进性能，并展示了不同计算异质性下的改进效果。

Apr, 2024

联邦自然策略梯度方法用于多任务强化学习

多任务情境下的联邦强化学习，通过策略优化实现分布式决策，并建立了全局收敛性保证。

Nov, 2023

具约束异构的联邦强化学习

我们研究了具有约束异构性的联邦强化学习（FedRL）问题，通过多个智能体在不同环境下协同学习，解决具有多个约束的强化学习问题，并提出了基于传统策略梯度方法的联邦原始 - 对偶策略优化方法，其中我们关注的两种算法为 FedNPG 和 FedPPO，通过使用深度神经网络，FedPPO 有效地解决了复杂的学习任务。

May, 2024

FedADMM: 适应系统异构性的强大联邦深度学习框架

本文提出了一种新的 FedADMM 协议用于非凸目标函数下的联邦学习，利用双重变量解决统计异质性，该算法通过扩展 Lagrangian 以保持每轮相同的通信成本和推广 FedAvg/Prox。在真实数据集上的实验结果表明，FedADMM 在减少所需轮数的通信效率方面优于所有基线方法，尤其在大规模系统中其优势更为明显。

Apr, 2022

联合策略梯度方法在存在对手情况下的全局收敛保证

在 Federated Reinforcement Learning 中，我们提出了一种基于策略梯度的方法，能够在存在对抗性代理的情况下，实现全局收敛性保证，并具有较低的样本复杂度。

Mar, 2024

FedNew: 一种通信高效且隐私保护的联邦学习牛顿型方法

本研究介绍了一种名为 FedNew 的新型框架，通过引入两级框架、替换传统方法中需要从客户端传输 Hessian 信息的环节等方式解决了低通信效率、低隐私性等问题，并使用随机量化等方式将通信开销显著降低，在实际数据集上的实验显示出了优于现有方法的性能。

Jun, 2022

基于 ADMM 的高效联邦学习通信方案

本文提出了基于 ADMM 的联邦学习算法，具有通信高效性、收敛线性以及计算复杂度低等优点。

Oct, 2021

胜利的势头：异构环境下的协作联邦强化学习

我们提出了两个算法：FedSVRPG-M 和 FedHAPG-M，通过利用动量机制，不论环境异质性的大小，两个算法都可以精确收敛到平均性能函数的一个稳定点，进一步结合方差降低技术或海森矩阵近似，两个算法均达到了最新的收敛结果，其采样复杂度为 O (epsilon^(-3/2)/N)，同时我们的算法线性加速了收敛速度，并突显了在找到共同策略中代理之间合作的好处。

May, 2024

FedADMM：一种允许部分参与的联合原始对偶算法

该研究提出一种新的联邦学习算法 FedADMM，解决具有非光滑正则化器的非凸复合优化问题，以促进通信效率和数据隐私。作者证明了在一般的采样模型下，在不是所有客户端都能参与给定通信轮的情况下，FedADMM 会收敛。

Mar, 2022

乐观自然策略梯度：一种简单高效的在线强化学习策略优化框架

本文提出了一种称为 Optimistic NPG 的简单高效策略优化框架，该框架的样本复杂度具有最优的维度依赖性，可以高效地学习线性 MDP 和函数逼近下的最优策略。

May, 2023