具有参考 - 优势分解的联邦 Q 学习：几乎最优的遗憾和对数通信成本

May, 2024

具有参考 - 优势分解的联邦 Q 学习：几乎最优的遗憾和对数通信成本

Federated Q-Learning with Reference-Advantage Decomposition: Almost Optimal Regret and Logarithmic Communication Cost

Zhong Zheng, Haochen Zhang, Lingzhou Xue

TL;DR本文介绍了一种模型无关的联邦增强学习算法，称为 FedQ-Advantage，它利用基于参考优势的分解进行方差降低，并在两个不同的机制下运行：代理与服务器之间的同步和策略更新，两者都由事件触发。我们证明了我们的算法不仅需要更低的对数通信成本，而且在时间跨度足够大的情况下，达到了信息界的几乎最优遗憾，并且较其单一代理对应物获得了近线性遗憾加速。

Abstract

In this paper, we consider model-free federated reinforcement learning for tabular episodic markov decision processes. Under the coordination of a central server, multiple agents collaboratively explore the envir

model-free federated reinforcement learning tabular episodic markov decision processes federated q-learning algorithms fedq-advantage variance reduction

发现论文，激发创造

联邦 Q-Learning：线性遗憾加速与低通信成本

在这篇论文中，我们考虑了联合强化学习用于表格式情节马尔可夫决策过程（MDP），在这种过程中，通过一个中央服务器的协调，多个代理协同探索环境并在不共享原始数据的情况下学习最优策略。我们提出了两种联合 Q 学习算法，分别称为 FedQ-Hoeffding 和 FedQ-Bernstein，并且证明了当时间范围足够大时，与单个代理对应的总后悔值可以实现线性加速，而通信成本在总时间步长 $T$ 中以对数方式进行扩展。这些结果依赖于代理和服务器之间的事件触发同步机制、服务器合并状态 - 动作值的局部估计形成全局估计时的新型步长选择，以及一组新的浓度不等式，用于限制非鞅差分的和。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。

Dec, 2023

带有生成模型的压缩联邦强化学习

提出了一种通信高效的联合强化学习方法，该方法利用周期性聚合和压缩机制将本地代理的压缩估计聚合到一个中央服务器上，首次对这两种机制进行了有限时间分析，并在实验中验证了算法的收敛性行为。

Mar, 2024

联邦离线强化学习：协同单策略覆盖足够

通过将离线强化学习与联邦学习相结合，本文研究了联邦离线强化学习在有限时间段下的马尔可夫决策过程中的优势，设计了一种名为 FedLCB-Q 的变体算法，通过合作利用多个智能体的离线数据集实现了线性加速，并实现了与单智能体方法相当的样本复杂度，同时具备通信效率。

Feb, 2024

联邦 Q 学习中异构的优点：线性加速及其它

该论文讨论了利用分布式数据进行在线学习时，采用联邦 Q 学习算法可以在不共享数据的情况下进行合作学习，提出了一种基于重要性加权的平均算法，加速了算法的收敛速度，降低了样本复杂度。

May, 2023

参考优势分解下几乎最优无模型强化学习

使用 UCB-Advantage 算法解决了有限时间间隔下马尔可夫决策过程的强化学习问题，证明了该算法得到了比以前更好的失望值，并且在并发强化学习中表现出了较低的本地切换成本。

Apr, 2020

马尔可夫决策过程中的联邦控制

研究马尔可夫决策过程中的联合控制问题，介绍了多个学习代理的概念，使用名为联合 Q 协议（FedQ）的通信协议解决大状态空间下的 MDP，理论分析了 FedQ 协议的正确性和派生算法 FedQ-X 的样本复杂度，实验证明了方法的有效性。

May, 2024

具有平均回报目标的随机博弈中的分散式无模型强化学习

本文介绍了一个针对零和博弈中基于无限目标平均报酬的分散式学习的无模型算法，称为 Decentralized Optimistic Nash Q-Learning (DONQ-learning)，该算法能够获得 $T^{3/4}$ 阶数的高概率次线性遗憾和 $T^{2/3}$ 阶数的次线性期望遗憾。与以往的相关工作相比，该算法具有低计算复杂度和低内存空间要求。

Jan, 2023

通过通信最小化学习近似可分解价值函数

通过通信最小化来学习近乎可分解的 Q 函数，介绍了一种革命性的框架来协调多智能体系统中的效率与合作。

Oct, 2019

联邦强化学习：马尔可夫采样下的线性加速

本文提出了一种基于联邦学习的强化学习框架，使多方代理协作学习全局模型，同时保护个体数据隐私。对于联邦 TD 和 Q-learning 算法，我们证明了与代理数量成线性的收敛速度，这是首次考虑到马尔可夫噪声和多个本地更新的收敛分析。

Jun, 2022

多智能体强化学习：异步通信和线性函数逼近

该论文研究了多智能体强化学习在时序马尔科夫决策过程的情景下的应用，提出了一种基于价值迭代的算法，实现异步通信并保证协作的优势，证明了，当使用线性函数逼近时，该算法的遗憾值可达到 $\tilde {\mathcal {O}}(d^{3/2} H^2\sqrt {K})$，且通信复杂度为 $\tilde {\mathcal {O}}(dHM^2)$。

May, 2023