带有生成模型的压缩联邦强化学习

Mar, 2024

带有生成模型的压缩联邦强化学习

Compressed Federated Reinforcement Learning with a Generative Model

Ali Beikmohammadi, Sarit Khirirat, Sindri Magnússon

TL;DR提出了一种通信高效的联合强化学习方法，该方法利用周期性聚合和压缩机制将本地代理的压缩估计聚合到一个中央服务器上，首次对这两种机制进行了有限时间分析，并在实验中验证了算法的收敛性行为。

Abstract

reinforcement learning has recently gained unprecedented popularity, yet it still grapples with sample inefficiency. Addressing this challenge, federated reinforcement learning (FedRL) has emerged, wherein agents

reinforcement learning federated reinforcement learning communication efficiency aggregation compressive learning

发现论文，激发创造

面向联邦强化学习的通信高效共识机制

本文考虑了联邦学习范式下的独立强化学习问题，提出了一种系统效用函数以及基于周期平均法的共识优化方案，在理论分析与数值模拟中证明了其优异性和有效性。

Jan, 2022

联邦离线强化学习：协同单策略覆盖足够

通过将离线强化学习与联邦学习相结合，本文研究了联邦离线强化学习在有限时间段下的马尔可夫决策过程中的优势，设计了一种名为 FedLCB-Q 的变体算法，通过合作利用多个智能体的离线数据集实现了线性加速，并实现了与单智能体方法相当的样本复杂度，同时具备通信效率。

Feb, 2024

联邦深度强化学习

本文提出了一种新的深度强化学习框架 FedRL，旨在联邦地建立高质量的代理模型，其中考虑到其隐私，并通过利用高斯微分来保护数据和模型的隐私。在 Grid-world 和 Text2Action 领域的实验中，该框架与各种基线模型进行了比较。

Jan, 2019

具有参考 - 优势分解的联邦 Q 学习：几乎最优的遗憾和对数通信成本

本文介绍了一种模型无关的联邦增强学习算法，称为 FedQ-Advantage，它利用基于参考优势的分解进行方差降低，并在两个不同的机制下运行：代理与服务器之间的同步和策略更新，两者都由事件触发。我们证明了我们的算法不仅需要更低的对数通信成本，而且在时间跨度足够大的情况下，达到了信息界的几乎最优遗憾，并且较其单一代理对应物获得了近线性遗憾加速。

May, 2024

联邦 Q 学习中异构的优点：线性加速及其它

该论文讨论了利用分布式数据进行在线学习时，采用联邦 Q 学习算法可以在不共享数据的情况下进行合作学习，提出了一种基于重要性加权的平均算法，加速了算法的收敛速度，降低了样本复杂度。

May, 2023

FedComLoc: 通信高效的稀疏与量化模型的分布式训练

我们引入 FedComLoc 算法，集成了实用和有效的压缩技术到 Scaffnew 算法中，以进一步提高通信效率。通过使用流行的 TopK 压缩器和量化技术进行广泛实验，证明了在异构环境中大幅减少通信开销的能力。

Mar, 2024

联邦 Q-Learning：线性遗憾加速与低通信成本

在这篇论文中，我们考虑了联合强化学习用于表格式情节马尔可夫决策过程（MDP），在这种过程中，通过一个中央服务器的协调，多个代理协同探索环境并在不共享原始数据的情况下学习最优策略。我们提出了两种联合 Q 学习算法，分别称为 FedQ-Hoeffding 和 FedQ-Bernstein，并且证明了当时间范围足够大时，与单个代理对应的总后悔值可以实现线性加速，而通信成本在总时间步长 $T$ 中以对数方式进行扩展。这些结果依赖于代理和服务器之间的事件触发同步机制、服务器合并状态 - 动作值的局部估计形成全局估计时的新型步长选择，以及一组新的浓度不等式，用于限制非鞅差分的和。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。

Dec, 2023

胜利的势头：异构环境下的协作联邦强化学习

我们提出了两个算法：FedSVRPG-M 和 FedHAPG-M，通过利用动量机制，不论环境异质性的大小，两个算法都可以精确收敛到平均性能函数的一个稳定点，进一步结合方差降低技术或海森矩阵近似，两个算法均达到了最新的收敛结果，其采样复杂度为 O (epsilon^(-3/2)/N)，同时我们的算法线性加速了收敛速度，并突显了在找到共同策略中代理之间合作的好处。

May, 2024

强化学习作为鲁棒和公平联邦学习的催化剂：解读客户贡献的动态

提出了一种新的强化联邦学习（RFL）框架，通过深度强化学习在聚合过程中自适应优化客户贡献，提高模型对恶意客户的鲁棒性和参与者之间的公平性，在非独立分布的情况下实现鲁棒性和公平性，并通过验证集性能引导的奖励机制获得了可靠性和公平性的可比较水平。

Feb, 2024

联邦学习中高效客户端选择的多智能体强化学习方法

本文提出了一种基于 Multi-Agent Reinforcement Learning 的 Federated learning 框架 - FedMarl，该框架不仅可以显著提高模型精度，还能大幅降低处理延迟和通信成本，从而解决了 Federated learning 在实际应用中的训练效率问题。

Jan, 2022