联邦深度强化学习

Jan, 2019

Federated Deep Reinforcement Learning

Hankz Hankui Zhuo, Wenfeng Feng, Yufeng Lin, Qian Xu, Qiang Yang

TL;DR本文提出了一种新的深度强化学习框架 FedRL，旨在联邦地建立高质量的代理模型，其中考虑到其隐私，并通过利用高斯微分来保护数据和模型的隐私。在 Grid-world 和 Text2Action 领域的实验中，该框架与各种基线模型进行了比较。

Abstract

In deep reinforcement learning, building policies of high-quality is challenging when the feature space of states is small and the training data is limited. Despite the success of previous transfer learning appro

deep reinforcement learning transfer learning federated learning privacy preservation model building

发现论文，激发创造

个性化联邦超网络用于多任务强化学习的隐私保护

本文介绍了一种新型的多智能体强化学习模型 Personalized Federated Hypernetworks (PFH)，并将其应用于少样本迁移 (transfer) 学习和 RL 场景中的能源需求响应 (price-setting)，实验结果表明 PFH 能够在保持数据安全的前提下达到多个任务的高效学习。

Oct, 2022

面向多无人机协助边缘计算的个性化联邦深度强化学习轨迹优化

在 5G 移动通信时代，研究聚焦于无人机和移动边缘计算技术方面出现了显著增长。本研究提出了一种名为个性化联邦深度强化学习（PF-DRL）的新解决方案，用于多无人机轨迹优化。模拟结果表明，该算法具有更快的收敛速度和改善服务质量，优于其他基于深度强化学习的方法。

Sep, 2023

使用代理经验记忆的联邦加强蒸馏

提出了一种隐私保护的分布式强化学习框架 FRD，通过交换代理经验记忆保留真实经验的隐私，基于优势 actor-critic 强化学习架构评估了 FRD 的有效性，并研究了代理内存结构和不同内存交换规则对 FRD 性能的影响。

Jul, 2019

带有生成模型的压缩联邦强化学习

提出了一种通信高效的联合强化学习方法，该方法利用周期性聚合和压缩机制将本地代理的压缩估计聚合到一个中央服务器上，首次对这两种机制进行了有限时间分析，并在实验中验证了算法的收敛性行为。

Mar, 2024

用于自主驾驶的联邦迁移强化学习

使用联邦学习的方法，将基于模拟器的强化学习模型实现动态的知识提取和共享，促进自动驾驶和机器人应用中的知识共享，进而在实时碰撞避免任务中实现更好的表现。

Oct, 2019

具约束异构的联邦强化学习

我们研究了具有约束异构性的联邦强化学习（FedRL）问题，通过多个智能体在不同环境下协同学习，解决具有多个约束的强化学习问题，并提出了基于传统策略梯度方法的联邦原始 - 对偶策略优化方法，其中我们关注的两种算法为 FedNPG 和 FedPPO，通过使用深度神经网络，FedPPO 有效地解决了复杂的学习任务。

May, 2024

联邦强化学习：技术、应用和未解决的挑战

本文介绍了联邦强化学习 (Federated Reinforcement Learning, FRL) 的全面调查，重点介绍了 FRL 作为一种新的方法，其基本思想是利用联邦学习来提高 RL 的性能，同时保护数据隐私。根据框架中代理的分布特征，FRL 算法可分为两类，即水平联邦强化学习 (HFRL) 和竖直联邦强化学习 (VFRL)。最后，介绍了几个重要的研究方向以解决 FRL 中存在的问题。

Aug, 2021

FedDRL：一个基于阶段强化学习的可信联邦学习模型融合方法

我们提出 FedDRL, 一种基于强化学习的两阶段模型融合方法，通过筛选恶意模型和选择可信的客户模型参与模型融合，并自适应调整可信客户模型的权重，实现最优全局模型的聚合，与两个基准算法相比，在五个模型融合场景中，我们的算法具有更高的可靠性，同时保持准确度。

Jul, 2023

大型领域对话管理中的封建强化学习

本文提出了一种以 Feudal RL 为基础的对话管理架构，利用领域本体结构信息抽象出对话状态空间，并在不需要额外奖励信号的情况下，在几个对话领域和环境中显著优于先前的最新成果。

Mar, 2018

联邦式集合指导下的离线强化学习

本文介绍了一种使用联邦学习平台上的分布式计算资源，基于集成学习方法开发的、名为 FEDORA 的算法，以解决联邦离线强化学习问题。我们展示了 FEDORA 在各种复杂的连续控制环境和真实世界数据集中明显优于其他方法，包括离线 RL 在合并数据池中，最终在移动机器人上演示了 FEDORA 的表现。

May, 2023