有限时间分析对策略异构联合强化学习的应用

ICLRJan, 2024

有限时间分析对策略异构联合强化学习的应用

Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement Learning

Chenyu Zhang, Han Wang, Aritra Mitra, James Anderson

TL;DR通过引入线性函数逼近方法，我们提出了 FedSARSA，一种新颖的联邦在线政策强化学习方案，以应对 FRL 算法的挑战，并提供全面的有限时间误差分析。我们证明了 FedSARSA 收敛于对所有代理都接近最优的政策，该接近程度与异质性水平成正比。此外，我们证明了 FedSARSA 利用代理协作实现了线性加速，随着代理数量的增加而适应性地提升速度，对于固定和自适应步长配置均成立。

Abstract

federated reinforcement learning (FRL) has emerged as a promising paradigm for reducing the sample complexity of reinforcement learning tasks by exploiting information from different agents. However, when each ag

federated reinforcement learning sample complexity non-asymptotic performance linear function approximation policy convergence

发现论文，激发创造

胜利的势头：异构环境下的协作联邦强化学习

我们提出了两个算法：FedSVRPG-M 和 FedHAPG-M，通过利用动量机制，不论环境异质性的大小，两个算法都可以精确收敛到平均性能函数的一个稳定点，进一步结合方差降低技术或海森矩阵近似，两个算法均达到了最新的收敛结果，其采样复杂度为 O (epsilon^(-3/2)/N)，同时我们的算法线性加速了收敛速度，并突显了在找到共同策略中代理之间合作的好处。

May, 2024

联邦 Q 学习中异构的优点：线性加速及其它

该论文讨论了利用分布式数据进行在线学习时，采用联邦 Q 学习算法可以在不共享数据的情况下进行合作学习，提出了一种基于重要性加权的平均算法，加速了算法的收敛速度，降低了样本复杂度。

May, 2023

SCAFFLSA: 量化和消除联邦式线性随机逼近和时序差异学习中的异质性偏差

本文对联邦线性随机逼近（FedLSA）算法进行了非渐进分析，定量化了异质代理的本地训练引入的偏差，并调查了算法的样本复杂度。我们展示了 FedLSA 的通信复杂度与所需精度 ε 的多项式缩放，从而限制了联邦的好处。为了克服这一问题，我们提出了 SCAFFLSA，这是 FedLSA 的一种新变体，它使用控制变量来校正本地训练的偏差，并证明其在统计异质性方面没有假设的收敛性。我们将所提出的方法应用于使用线性函数逼近的联邦时序差异学习，并分析了相应的复杂度改进。

Feb, 2024

联邦强化学习：马尔可夫采样下的线性加速

本文提出了一种基于联邦学习的强化学习框架，使多方代理协作学习全局模型，同时保护个体数据隐私。对于联邦 TD 和 Q-learning 算法，我们证明了与代理数量成线性的收敛速度，这是首次考虑到马尔可夫噪声和多个本地更新的收敛分析。

Jun, 2022

具约束异构的联邦强化学习

我们研究了具有约束异构性的联邦强化学习（FedRL）问题，通过多个智能体在不同环境下协同学习，解决具有多个约束的强化学习问题，并提出了基于传统策略梯度方法的联邦原始 - 对偶策略优化方法，其中我们关注的两种算法为 FedNPG 和 FedPPO，通过使用深度神经网络，FedPPO 有效地解决了复杂的学习任务。

May, 2024

基于线性函数逼近的 SARSA 有限样本分析

本文研究了在非独立同分布数据下具有线性函数逼近的 SARSA 算法，并开发了一种新的技术来显式表征随着时间变化的马尔科夫转移核的一类随机逼近过程的随机偏差，从而提供了基于有限样本的 SARSA 算法的均方误差有限样本分析以及配适的 SARSA 算法，后者包括原始 SARSA 算法及其变体，提供了比逐步更新策略迭代更高效的泛化框架。

Feb, 2019

联邦强化学习：技术、应用和未解决的挑战

本文介绍了联邦强化学习 (Federated Reinforcement Learning, FRL) 的全面调查，重点介绍了 FRL 作为一种新的方法，其基本思想是利用联邦学习来提高 RL 的性能，同时保护数据隐私。根据框架中代理的分布特征，FRL 算法可分为两类，即水平联邦强化学习 (HFRL) 和竖直联邦强化学习 (VFRL)。最后，介绍了几个重要的研究方向以解决 FRL 中存在的问题。

Aug, 2021

带有生成模型的压缩联邦强化学习

提出了一种通信高效的联合强化学习方法，该方法利用周期性聚合和压缩机制将本地代理的压缩估计聚合到一个中央服务器上，首次对这两种机制进行了有限时间分析，并在实验中验证了算法的收敛性行为。

Mar, 2024

面向联邦强化学习的通信高效共识机制

本文考虑了联邦学习范式下的独立强化学习问题，提出了一种系统效用函数以及基于周期平均法的共识优化方案，在理论分析与数值模拟中证明了其优异性和有效性。

Jan, 2022

联合策略梯度方法在存在对手情况下的全局收敛保证

在 Federated Reinforcement Learning 中，我们提出了一种基于策略梯度的方法，能够在存在对抗性代理的情况下，实现全局收敛性保证，并具有较低的样本复杂度。

Mar, 2024