May, 2024

胜利的势头:异构环境下的协作联邦强化学习

TL;DR我们提出了两个算法:FedSVRPG-M 和 FedHAPG-M,通过利用动量机制,不论环境异质性的大小,两个算法都可以精确收敛到平均性能函数的一个稳定点,进一步结合方差降低技术或海森矩阵近似,两个算法均达到了最新的收敛结果,其采样复杂度为 O (epsilon^(-3/2)/N),同时我们的算法线性加速了收敛速度,并突显了在找到共同策略中代理之间合作的好处。