联邦 Q-Learning：线性遗憾加速与低通信成本

Dec, 2023

联邦 Q-Learning：线性遗憾加速与低通信成本

Federated Q-Learning: Linear Regret Speedup with Low Communication Cost

Zhong Zheng, Fengyu Gao, Lingzhou Xue, Jing Yang

TL;DR在这篇论文中，我们考虑了联合强化学习用于表格式情节马尔可夫决策过程（MDP），在这种过程中，通过一个中央服务器的协调，多个代理协同探索环境并在不共享原始数据的情况下学习最优策略。我们提出了两种联合 Q 学习算法，分别称为 FedQ-Hoeffding 和 FedQ-Bernstein，并且证明了当时间范围足够大时，与单个代理对应的总后悔值可以实现线性加速，而通信成本在总时间步长 $T$ 中以对数方式进行扩展。这些结果依赖于代理和服务器之间的事件触发同步机制、服务器合并状态 - 动作值的局部估计形成全局估计时的新型步长选择，以及一组新的浓度不等式，用于限制非鞅差分的和。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。

Abstract

In this paper, we consider federated reinforcement learning for tabular episodic Markov Decision Processes (MDP) where, under the coordination of a central server, multiple agents collaboratively explore the environment and learn an optimal policy without sharing their raw data. While

federated reinforcement learning tabular episodic mdp linear speedup communication cost model-free algorithms

发现论文，激发创造

具有参考 - 优势分解的联邦 Q 学习：几乎最优的遗憾和对数通信成本

本文介绍了一种模型无关的联邦增强学习算法，称为 FedQ-Advantage，它利用基于参考优势的分解进行方差降低，并在两个不同的机制下运行：代理与服务器之间的同步和策略更新，两者都由事件触发。我们证明了我们的算法不仅需要更低的对数通信成本，而且在时间跨度足够大的情况下，达到了信息界的几乎最优遗憾，并且较其单一代理对应物获得了近线性遗憾加速。

May, 2024

联邦强化学习：马尔可夫采样下的线性加速

本文提出了一种基于联邦学习的强化学习框架，使多方代理协作学习全局模型，同时保护个体数据隐私。对于联邦 TD 和 Q-learning 算法，我们证明了与代理数量成线性的收敛速度，这是首次考虑到马尔可夫噪声和多个本地更新的收敛分析。

Jun, 2022

联邦 Q 学习中异构的优点：线性加速及其它

该论文讨论了利用分布式数据进行在线学习时，采用联邦 Q 学习算法可以在不共享数据的情况下进行合作学习，提出了一种基于重要性加权的平均算法，加速了算法的收敛速度，降低了样本复杂度。

May, 2023

有限擦除通道上的联邦 TD 学习：马尔科夫采样下的线性加速

本文研究联邦强化学习中的策略评估问题，在限制通信的条件下，借助于一个中央聚合器促进通讯来加快一个共同策略的评估。我们提出并分析了一种基于线性函数逼近的量化联邦时序差分学习算法 QFedTD，提供了 QFedTD 的有限样本收敛速度分析，并建立了 QFedTD 在马尔可夫抽样下相对于代理数量的线性加速。此外，我们是第一个在多智能体和联邦强化学习领域中提供定量分析的研究。

May, 2023

马尔可夫决策过程中的联邦控制

研究马尔可夫决策过程中的联合控制问题，介绍了多个学习代理的概念，使用名为联合 Q 协议（FedQ）的通信协议解决大状态空间下的 MDP，理论分析了 FedQ 协议的正确性和派生算法 FedQ-X 的样本复杂度，实验证明了方法的有效性。

May, 2024

联邦离线强化学习：协同单策略覆盖足够

通过将离线强化学习与联邦学习相结合，本文研究了联邦离线强化学习在有限时间段下的马尔可夫决策过程中的优势，设计了一种名为 FedLCB-Q 的变体算法，通过合作利用多个智能体的离线数据集实现了线性加速，并实现了与单智能体方法相当的样本复杂度，同时具备通信效率。

Feb, 2024

离线强化学习遗憾的快速速率

本文研究了从固定行为策略生成的线下数据中学习无限时间折扣马尔可夫决策过程中的后悔问题，分析了 $Q$-iteration（FQI）等常见方法的后悔收敛速度，并提供了较快的收敛率。其中，一种可行的方法是根据最优质量函数的任何估计，定义的策略的后悔以指数形式收敛于 $Q^*$ ，使其加速；同时，建立了这种噪声水平在线性和表形 MDP 中的应用。

Jan, 2021

带有生成模型的压缩联邦强化学习

提出了一种通信高效的联合强化学习方法，该方法利用周期性聚合和压缩机制将本地代理的压缩估计聚合到一个中央服务器上，首次对这两种机制进行了有限时间分析，并在实验中验证了算法的收敛性行为。

Mar, 2024

多智能体强化学习：异步通信和线性函数逼近

该论文研究了多智能体强化学习在时序马尔科夫决策过程的情景下的应用，提出了一种基于价值迭代的算法，实现异步通信并保证协作的优势，证明了，当使用线性函数逼近时，该算法的遗憾值可达到 $\tilde {\mathcal {O}}(d^{3/2} H^2\sqrt {K})$，且通信复杂度为 $\tilde {\mathcal {O}}(dHM^2)$。

May, 2023

线性混合 MDP 的高效无界强化学习算法

该研究论文提出了第一个计算高效、无横向界限算法，其中采用了加权最小二乘法，以用于未知状态转移动态的估算，并能够应用于异构线性 bandits 中，达到了比已知算法更优的效果。

May, 2022