联邦自然策略梯度方法用于多任务强化学习

Nov, 2023

联邦自然策略梯度方法用于多任务强化学习

Federated Natural Policy Gradient Methods for Multi-task Reinforcement Learning

Tong Yang, Shicong Cen, Yuting Wei, Yuxin Chen, Yuejie Chi

TL;DR多任务情境下的联邦强化学习，通过策略优化实现分布式决策，并建立了全局收敛性保证。

Abstract

federated reinforcement learning (RL) enables collaborative decision making of multiple distributed agents without sharing local data trajectories. In this work, we consider a multi-task setting, in which each ag

federated reinforcement learning multi-task setting decentralized decision making policy optimization global convergence

发现论文，激发创造

具约束异构的联邦强化学习

我们研究了具有约束异构性的联邦强化学习（FedRL）问题，通过多个智能体在不同环境下协同学习，解决具有多个约束的强化学习问题，并提出了基于传统策略梯度方法的联邦原始 - 对偶策略优化方法，其中我们关注的两种算法为 FedNPG 和 FedPPO，通过使用深度神经网络，FedPPO 有效地解决了复杂的学习任务。

May, 2024

胜利的势头：异构环境下的协作联邦强化学习

我们提出了两个算法：FedSVRPG-M 和 FedHAPG-M，通过利用动量机制，不论环境异质性的大小，两个算法都可以精确收敛到平均性能函数的一个稳定点，进一步结合方差降低技术或海森矩阵近似，两个算法均达到了最新的收敛结果，其采样复杂度为 O (epsilon^(-3/2)/N)，同时我们的算法线性加速了收敛速度，并突显了在找到共同策略中代理之间合作的好处。

May, 2024

联合策略梯度方法在存在对手情况下的全局收敛保证

在 Federated Reinforcement Learning 中，我们提出了一种基于策略梯度的方法，能够在存在对抗性代理的情况下，实现全局收敛性保证，并具有较低的样本复杂度。

Mar, 2024

通过 ADMM 基于梯度更新的方法提高联邦自然策略梯度的通信效率

联邦强化学习通过 ADMM 方法有效降低通信复杂性，实现了与标准联邦自然策略梯度相同的收敛速度。

Oct, 2023

自然策略梯度方法在熵正则化下的快速全局收敛

为了证明策略优化算法的收敛性，本篇论文开发出了一种新的方法，该方法使用非统计方法提供了 $ extit {非渐进}$ 收敛保证，并专注于受 softmax 参数化限制的比例调节的策略梯度算法，重点是折扣的马尔可夫决策过程。实验证明，该算法在逼近正则化 MDP 的最优价值函数时，收敛呈线性或甚至二次收敛速度，考虑到算法的稳定性，收敛结果适应了广泛的学习速率，并阐明了熵正则化在实现快速收敛方面的作用。

Jul, 2020

异步联邦强化学习策略梯度更新：算法设计与收敛分析

为了提高强化学习的效率，我们提出了一个名为 AFedPG 的新型异步联邦强化学习框架，通过使用策略梯度（PG）更新在 N 个智能体之间进行协作来构建全局模型。我们设计了延迟自适应预测和归一化更新技术来处理异步环境中滞后策略的挑战，并分析了 AFedPG 的理论全局收敛界限，以及在样本复杂度和时间复杂度方面的优势。最后，我们在三个 MuJoCo 环境中通过实证验证了 AFedPG 的改进性能，并展示了不同计算异质性下的改进效果。

Apr, 2024

具有熵正则化的独立自然策略梯度在游戏中的线性收敛

这项研究主要关注多智能体强化学习中的熵正则化独立自然策略梯度算法，通过引入熵正则化实现有界理性的决策，从而使智能体的行为接近纳什均衡，并通过实证结果验证了理论分析的可靠性。

May, 2024

个性化联邦超网络用于多任务强化学习的隐私保护

本文介绍了一种新型的多智能体强化学习模型 Personalized Federated Hypernetworks (PFH)，并将其应用于少样本迁移 (transfer) 学习和 RL 场景中的能源需求响应 (price-setting)，实验结果表明 PFH 能够在保持数据安全的前提下达到多个任务的高效学习。

Oct, 2022

自然策略梯度在无限状态平均奖励马尔可夫决策过程上的收敛性

该研究证明了自然策略梯度算法在无限状态的平均奖励马尔可夫决策过程中的收敛速度，如果采用良好的初始策略进行初始化，则收敛速度为 O (1/√T)。此外，针对大类排队马尔可夫决策过程，最大权重策略足以满足我们的初始策略要求并实现 O (1/√T) 的收敛速度。关键是根据 NPG 算法的迭代策略所达到的相对值函数，我们得出了这一结果。

Feb, 2024

具有拜占庭容错和证明快速收敛性的分散联邦策略梯度

分布式强化学习中，我们提出了第一种去中心化的拜占庭容错方法，通过结合强大的聚合和拜占庭容错协议来降低对受信任中央实体的需求，实验结果表明其对参与代理数量的加速和抵抗不同拜占庭攻击具有可靠性。

Jan, 2024