Apr, 2024

异步联邦强化学习策略梯度更新:算法设计与收敛分析

TL;DR为了提高强化学习的效率,我们提出了一个名为 AFedPG 的新型异步联邦强化学习框架,通过使用策略梯度(PG)更新在 N 个智能体之间进行协作来构建全局模型。我们设计了延迟自适应预测和归一化更新技术来处理异步环境中滞后策略的挑战,并分析了 AFedPG 的理论全局收敛界限,以及在样本复杂度和时间复杂度方面的优势。最后,我们在三个 MuJoCo 环境中通过实证验证了 AFedPG 的改进性能,并展示了不同计算异质性下的改进效果。