ICLRJan, 2024

有限时间分析对策略异构联合强化学习的应用

TL;DR通过引入线性函数逼近方法,我们提出了 FedSARSA,一种新颖的联邦在线政策强化学习方案,以应对 FRL 算法的挑战,并提供全面的有限时间误差分析。我们证明了 FedSARSA 收敛于对所有代理都接近最优的政策,该接近程度与异质性水平成正比。此外,我们证明了 FedSARSA 利用代理协作实现了线性加速,随着代理数量的增加而适应性地提升速度,对于固定和自适应步长配置均成立。