Tong Yang, Shicong Cen, Yuting Wei, Yuxin Chen, Yuejie Chi
TL;DR多任务情境下的联邦强化学习,通过策略优化实现分布式决策,并建立了全局收敛性保证。
Abstract
federated reinforcement learning (RL) enables collaborative decision making
of multiple distributed agents without sharing local data trajectories. In this
work, we consider a multi-task setting, in which each ag
我们提出了两个算法:FedSVRPG-M 和 FedHAPG-M,通过利用动量机制,不论环境异质性的大小,两个算法都可以精确收敛到平均性能函数的一个稳定点,进一步结合方差降低技术或海森矩阵近似,两个算法均达到了最新的收敛结果,其采样复杂度为 O (epsilon^(-3/2)/N),同时我们的算法线性加速了收敛速度,并突显了在找到共同策略中代理之间合作的好处。
该研究证明了自然策略梯度算法在无限状态的平均奖励马尔可夫决策过程中的收敛速度,如果采用良好的初始策略进行初始化,则收敛速度为 O (1/√T)。此外,针对大类排队马尔可夫决策过程,最大权重策略足以满足我们的初始策略要求并实现 O (1/√T) 的收敛速度。关键是根据 NPG 算法的迭代策略所达到的相对值函数,我们得出了这一结果。