联邦 Q 学习中异构的优点:线性加速及其它
本文提出了一种基于联邦学习的强化学习框架,使多方代理协作学习全局模型,同时保护个体数据隐私。对于联邦 TD 和 Q-learning 算法,我们证明了与代理数量成线性的收敛速度,这是首次考虑到马尔可夫噪声和多个本地更新的收敛分析。
Jun, 2022
通过将离线强化学习与联邦学习相结合,本文研究了联邦离线强化学习在有限时间段下的马尔可夫决策过程中的优势,设计了一种名为 FedLCB-Q 的变体算法,通过合作利用多个智能体的离线数据集实现了线性加速,并实现了与单智能体方法相当的样本复杂度,同时具备通信效率。
Feb, 2024
在这篇论文中,我们考虑了联合强化学习用于表格式情节马尔可夫决策过程(MDP),在这种过程中,通过一个中央服务器的协调,多个代理协同探索环境并在不共享原始数据的情况下学习最优策略。我们提出了两种联合 Q 学习算法,分别称为 FedQ-Hoeffding 和 FedQ-Bernstein,并且证明了当时间范围足够大时,与单个代理对应的总后悔值可以实现线性加速,而通信成本在总时间步长 $T$ 中以对数方式进行扩展。这些结果依赖于代理和服务器之间的事件触发同步机制、服务器合并状态 - 动作值的局部估计形成全局估计时的新型步长选择,以及一组新的浓度不等式,用于限制非鞅差分的和。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。
Dec, 2023
我们提出了两个算法:FedSVRPG-M 和 FedHAPG-M,通过利用动量机制,不论环境异质性的大小,两个算法都可以精确收敛到平均性能函数的一个稳定点,进一步结合方差降低技术或海森矩阵近似,两个算法均达到了最新的收敛结果,其采样复杂度为 O (epsilon^(-3/2)/N),同时我们的算法线性加速了收敛速度,并突显了在找到共同策略中代理之间合作的好处。
May, 2024
研究马尔可夫决策过程中的联合控制问题,介绍了多个学习代理的概念,使用名为联合 Q 协议(FedQ)的通信协议解决大状态空间下的 MDP,理论分析了 FedQ 协议的正确性和派生算法 FedQ-X 的样本复杂度,实验证明了方法的有效性。
May, 2024
通过引入线性函数逼近方法,我们提出了 FedSARSA,一种新颖的联邦在线政策强化学习方案,以应对 FRL 算法的挑战,并提供全面的有限时间误差分析。我们证明了 FedSARSA 收敛于对所有代理都接近最优的政策,该接近程度与异质性水平成正比。此外,我们证明了 FedSARSA 利用代理协作实现了线性加速,随着代理数量的增加而适应性地提升速度,对于固定和自适应步长配置均成立。
Jan, 2024
提出了一种通信高效的联合强化学习方法,该方法利用周期性聚合和压缩机制将本地代理的压缩估计聚合到一个中央服务器上,首次对这两种机制进行了有限时间分析,并在实验中验证了算法的收敛性行为。
Mar, 2024
本文研究联邦强化学习中的策略评估问题,在限制通信的条件下,借助于一个中央聚合器促进通讯来加快一个共同策略的评估。我们提出并分析了一种基于线性函数逼近的量化联邦时序差分学习算法 QFedTD,提供了 QFedTD 的有限样本收敛速度分析,并建立了 QFedTD 在马尔可夫抽样下相对于代理数量的线性加速。此外,我们是第一个在多智能体和联邦强化学习领域中提供定量分析的研究。
May, 2023
本文介绍了一种模型无关的联邦增强学习算法,称为 FedQ-Advantage,它利用基于参考优势的分解进行方差降低,并在两个不同的机制下运行:代理与服务器之间的同步和策略更新,两者都由事件触发。我们证明了我们的算法不仅需要更低的对数通信成本,而且在时间跨度足够大的情况下,达到了信息界的几乎最优遗憾,并且较其单一代理对应物获得了近线性遗憾加速。
May, 2024