代理经验回放：分布式强化学习的联合蒸馏

May, 2020

代理经验回放：分布式强化学习的联合蒸馏

Proxy Experience Replay: Federated Distillation for Distributed Reinforcement Leargning

Han Cha, Jihong Park, Hyesung Kim, Mehdi Bennis, Seong-Lyun Kim

TL;DR本文介绍了一种名为联邦强化蒸馏（FRD）的通信高效和隐私保护的分布式强化学习框架，并通过模拟实验验证了改进版本的 MixFRD 相对于基准方案具有更好的任务完成时间和通信成本方差减少。

Abstract

Traditional distributed deep reinforcement learning (RL) commonly relies on exchanging the experience replay memory (RM) of each agent. Since the RM contains all state observations and action policy history, it may incur huge communication overhead while violating the privacy of each agent. Alternatively, this article presents a communication-efficient and p

发现论文，激发创造

联邦深度强化学习

本文提出了一种新的深度强化学习框架FedRL，旨在联邦地建立高质量的代理模型，其中考虑到其隐私，并通过利用高斯微分来保护数据和模型的隐私。在Grid-world和Text2Action领域的实验中，该框架与各种基线模型进行了比较。

Jan, 2019

使用代理经验记忆的联邦加强蒸馏

提出了一种隐私保护的分布式强化学习框架FRD，通过交换代理经验记忆保留真实经验的隐私，基于优势actor-critic强化学习架构评估了FRD的有效性，并研究了代理内存结构和不同内存交换规则对FRD性能的影响。

Jul, 2019

联邦知识蒸馏

介绍了分布式学习中一种名为Federated Distillation的解决方案，实现了模型参数的共享，通过知识蒸馏、共同蒸馏等算法，交换神经网络模型的输出，提高了通信效率，并展示了其在不同任务和环境下的适用性。

Nov, 2020

联邦强化学习：技术、应用和未解决的挑战

本文介绍了联邦强化学习 (Federated Reinforcement Learning, FRL) 的全面调查，重点介绍了 FRL 作为一种新的方法，其基本思想是利用联邦学习来提高 RL 的性能，同时保护数据隐私。根据框架中代理的分布特征，FRL算法可分为两类，即水平联邦强化学习(HFRL) 和竖直联邦强化学习 (VFRL)。最后，介绍了几个重要的研究方向以解决FRL中存在的问题。

Aug, 2021

联邦强化学习：马尔可夫采样下的线性加速

本文提出了一种基于联邦学习的强化学习框架，使多方代理协作学习全局模型，同时保护个体数据隐私。对于联邦TD和Q-learning算法，我们证明了与代理数量成线性的收敛速度，这是首次考虑到马尔可夫噪声和多个本地更新的收敛分析。

Jun, 2022

个性化联邦超网络用于多任务强化学习的隐私保护

本文介绍了一种新型的多智能体强化学习模型Personalized Federated Hypernetworks (PFH)，并将其应用于少样本迁移(transfer)学习和RL场景中的能源需求响应(price-setting)，实验结果表明PFH能够在保持数据安全的前提下达到多个任务的高效学习。

Oct, 2022

有限时间分析对策略异构联合强化学习的应用

通过引入线性函数逼近方法，我们提出了FedSARSA，一种新颖的联邦在线政策强化学习方案，以应对FRL算法的挑战，并提供全面的有限时间误差分析。我们证明了FedSARSA收敛于对所有代理都接近最优的政策，该接近程度与异质性水平成正比。此外，我们证明了FedSARSA利用代理协作实现了线性加速，随着代理数量的增加而适应性地提升速度，对于固定和自适应步长配置均成立。

Jan, 2024

联邦离线强化学习：协同单策略覆盖足够

通过将离线强化学习与联邦学习相结合，本文研究了联邦离线强化学习在有限时间段下的马尔可夫决策过程中的优势，设计了一种名为FedLCB-Q的变体算法，通过合作利用多个智能体的离线数据集实现了线性加速，并实现了与单智能体方法相当的样本复杂度，同时具备通信效率。

Feb, 2024

基于动量的联邦强化学习与交互沟通效率

Federated Reinforcement Learning (FRL) algorithm, MFPO, enhances data utilization by controlling policy gradients using momentum and importance sampling, achieving efficient interaction and communication complexities with performance gains over existing methods.

May, 2024

胜利的势头：异构环境下的协作联邦强化学习

我们提出了两个算法：FedSVRPG-M和FedHAPG-M，通过利用动量机制，不论环境异质性的大小，两个算法都可以精确收敛到平均性能函数的一个稳定点，进一步结合方差降低技术或海森矩阵近似，两个算法均达到了最新的收敛结果，其采样复杂度为O(epsilon^(-3/2)/N)，同时我们的算法线性加速了收敛速度，并突显了在找到共同策略中代理之间合作的好处。

May, 2024