May, 2024

具有参考 - 优势分解的联邦 Q 学习:几乎最优的遗憾和对数通信成本

TL;DR本文介绍了一种模型无关的联邦增强学习算法,称为 FedQ-Advantage,它利用基于参考优势的分解进行方差降低,并在两个不同的机制下运行:代理与服务器之间的同步和策略更新,两者都由事件触发。我们证明了我们的算法不仅需要更低的对数通信成本,而且在时间跨度足够大的情况下,达到了信息界的几乎最优遗憾,并且较其单一代理对应物获得了近线性遗憾加速。