代理经验回放:分布式强化学习的联合蒸馏
本文提出了一种新的深度强化学习框架FedRL,旨在联邦地建立高质量的代理模型,其中考虑到其隐私,并通过利用高斯微分来保护数据和模型的隐私。在Grid-world和Text2Action领域的实验中,该框架与各种基线模型进行了比较。
Jan, 2019
提出了一种隐私保护的分布式强化学习框架FRD,通过交换代理经验记忆保留真实经验的隐私,基于优势actor-critic强化学习架构评估了FRD的有效性,并研究了代理内存结构和不同内存交换规则对FRD性能的影响。
Jul, 2019
介绍了分布式学习中一种名为Federated Distillation的解决方案,实现了模型参数的共享,通过知识蒸馏、共同蒸馏等算法,交换神经网络模型的输出,提高了通信效率,并展示了其在不同任务和环境下的适用性。
Nov, 2020
本文介绍了联邦强化学习 (Federated Reinforcement Learning, FRL) 的全面调查,重点介绍了 FRL 作为一种新的方法,其基本思想是利用联邦学习来提高 RL 的性能,同时保护数据隐私。根据框架中代理的分布特征,FRL算法可分为两类,即水平联邦强化学习(HFRL) 和竖直联邦强化学习 (VFRL)。最后,介绍了几个重要的研究方向以解决FRL中存在的问题。
Aug, 2021
本文提出了一种基于联邦学习的强化学习框架,使多方代理协作学习全局模型,同时保护个体数据隐私。对于联邦TD和Q-learning算法,我们证明了与代理数量成线性的收敛速度,这是首次考虑到马尔可夫噪声和多个本地更新的收敛分析。
Jun, 2022
本文介绍了一种新型的多智能体强化学习模型Personalized Federated Hypernetworks (PFH),并将其应用于少样本迁移(transfer)学习和RL场景中的能源需求响应(price-setting),实验结果表明PFH能够在保持数据安全的前提下达到多个任务的高效学习。
Oct, 2022
通过引入线性函数逼近方法,我们提出了FedSARSA,一种新颖的联邦在线政策强化学习方案,以应对FRL算法的挑战,并提供全面的有限时间误差分析。我们证明了FedSARSA收敛于对所有代理都接近最优的政策,该接近程度与异质性水平成正比。此外,我们证明了FedSARSA利用代理协作实现了线性加速,随着代理数量的增加而适应性地提升速度,对于固定和自适应步长配置均成立。
Jan, 2024
通过将离线强化学习与联邦学习相结合,本文研究了联邦离线强化学习在有限时间段下的马尔可夫决策过程中的优势,设计了一种名为FedLCB-Q的变体算法,通过合作利用多个智能体的离线数据集实现了线性加速,并实现了与单智能体方法相当的样本复杂度,同时具备通信效率。
Feb, 2024
Federated Reinforcement Learning (FRL) algorithm, MFPO, enhances data utilization by controlling policy gradients using momentum and importance sampling, achieving efficient interaction and communication complexities with performance gains over existing methods.
May, 2024
我们提出了两个算法:FedSVRPG-M和FedHAPG-M,通过利用动量机制,不论环境异质性的大小,两个算法都可以精确收敛到平均性能函数的一个稳定点,进一步结合方差降低技术或海森矩阵近似,两个算法均达到了最新的收敛结果,其采样复杂度为O(epsilon^(-3/2)/N),同时我们的算法线性加速了收敛速度,并突显了在找到共同策略中代理之间合作的好处。
May, 2024