Jun, 2022

联邦强化学习:马尔可夫采样下的线性加速

TL;DR本文提出了一种基于联邦学习的强化学习框架,使多方代理协作学习全局模型,同时保护个体数据隐私。对于联邦TD和Q-learning算法,我们证明了与代理数量成线性的收敛速度,这是首次考虑到马尔可夫噪声和多个本地更新的收敛分析。