BriefGPT.xyz
Ask
alpha
关键词
model-free federated reinforcement learning
搜索结果 - 1
具有参考 - 优势分解的联邦 Q 学习:几乎最优的遗憾和对数通信成本
本文介绍了一种模型无关的联邦增强学习算法,称为 FedQ-Advantage,它利用基于参考优势的分解进行方差降低,并在两个不同的机制下运行:代理与服务器之间的同步和策略更新,两者都由事件触发。我们证明了我们的算法不仅需要更低的对数通信成本
→
PDF
a month ago
Prev
Next