- 胜利的势头:异构环境下的协作联邦强化学习
我们提出了两个算法:FedSVRPG-M 和 FedHAPG-M,通过利用动量机制,不论环境异质性的大小,两个算法都可以精确收敛到平均性能函数的一个稳定点,进一步结合方差降低技术或海森矩阵近似,两个算法均达到了最新的收敛结果,其采样复杂度为 - MM基于动量的联邦强化学习与交互沟通效率
Federated Reinforcement Learning (FRL) algorithm, MFPO, enhances data utilization by controlling policy gradients using - MM基于双规范化的联邦离线策略优化
提出了一种名为 DRPO 的离线联邦策略优化算法,通过使用双重正则化来解决离线联邦强化学习中的两级分布变化问题,实现了分布式智能决策的显著性能提升。
- 具约束异构的联邦强化学习
我们研究了具有约束异构性的联邦强化学习(FedRL)问题,通过多个智能体在不同环境下协同学习,解决具有多个约束的强化学习问题,并提出了基于传统策略梯度方法的联邦原始 - 对偶策略优化方法,其中我们关注的两种算法为 FedNPG 和 FedP - CAESAR: 通过收敛感知采样和筛选增强异构 MDP 中的联邦强化学习
研究了异构环境下联邦强化学习中的收敛感知采样与筛选聚合方案(CAESAR),通过将同一马尔可夫决策过程中学习的代理的知识有选择地吸收到更优的对应代理中,显著提高学习效率
- 带有生成模型的压缩联邦强化学习
提出了一种通信高效的联合强化学习方法,该方法利用周期性聚合和压缩机制将本地代理的压缩估计聚合到一个中央服务器上,首次对这两种机制进行了有限时间分析,并在实验中验证了算法的收敛性行为。
- 零 - shot 泛化的机器人运动规划的联邦强化学习
本文提出了一个零样本泛化的机器人运动规划学习控制策略的问题,在新环境中部署学习策略时不需要数据收集和策略调整;开发了一个联邦强化学习框架,可以实现多个学习者和中央服务器(云)协作学习,而无需共享原始数据;在每次迭代中,每个学习者上传本地控制 - 联合策略梯度方法在存在对手情况下的全局收敛保证
在 Federated Reinforcement Learning 中,我们提出了一种基于策略梯度的方法,能够在存在对抗性代理的情况下,实现全局收敛性保证,并具有较低的样本复杂度。
- ICLR有限时间分析对策略异构联合强化学习的应用
通过引入线性函数逼近方法,我们提出了 FedSARSA,一种新颖的联邦在线政策强化学习方案,以应对 FRL 算法的挑战,并提供全面的有限时间误差分析。我们证明了 FedSARSA 收敛于对所有代理都接近最优的政策,该接近程度与异质性水平成正 - 具有拜占庭容错和证明快速收敛性的分散联邦策略梯度
分布式强化学习中,我们提出了第一种去中心化的拜占庭容错方法,通过结合强大的聚合和拜占庭容错协议来降低对受信任中央实体的需求,实验结果表明其对参与代理数量的加速和抵抗不同拜占庭攻击具有可靠性。
- 联邦 Q-Learning:线性遗憾加速与低通信成本
在这篇论文中,我们考虑了联合强化学习用于表格式情节马尔可夫决策过程(MDP),在这种过程中,通过一个中央服务器的协调,多个代理协同探索环境并在不共享原始数据的情况下学习最优策略。我们提出了两种联合 Q 学习算法,分别称为 FedQ-Hoef - 使用垂直联邦强化学习的网络微电网的韧性控制:设计与实时测试验证
提出了一种面对对抗式网络事件的具有弹性控制设计的新型联邦增强学习方法,并将所学习的控制策略通过仿真与实际测试平台的转移来减少仿真与实际之间的差距。
- 联邦自然策略梯度方法用于多任务强化学习
多任务情境下的联邦强化学习,通过策略优化实现分布式决策,并建立了全局收敛性保证。
- V2X 网络中资源分配的联邦强化学习
在车联网(V2X)网络中,我们通过联邦强化学习(FRL)框架探索资源分配,并使用非精确交替方向乘子法(ADMM)实现了算法 PASM,在 V2X 网络中解决资源分配问题,并与基线方法进行了比较。
- 通过 ADMM 基于梯度更新的方法提高联邦自然策略梯度的通信效率
联邦强化学习通过 ADMM 方法有效降低通信复杂性,实现了与标准联邦自然策略梯度相同的收敛速度。
- FRAMU: 基于注意力的联邦加强学习的机器消去
Machine Unlearning 的一个新颖框架是 Attention-based Machine Unlearning using Federated Reinforcement Learning (FRAMU),通过自适应学习机制、 - CyberForce: 基于联合强化学习的恶意软件缓解框架
使用联邦强化学习 (FRL) 确定用于减轻各种零日攻击的适当移动目标防御 (MTD) 技术的 CyberForce 框架已成功应用于一个由十个物联网设备组成的联邦中,并展示了高准确性和较短的训练时间相比集中式强化学习 (RL) 代理的优势。
- 云边端 IoT 网络中基于联邦强化学习的动态调度任务的协作策略学习
本研究提出了一种动态调度任务的新型协作策略学习框架,该框架使用联邦强化学习并使用云边终端 IoT 网络的层次结构聚合不同边缘的本地策略并取得了很好的效果。
- 多链接 Wi-Fi 网络链路激活的联合强化学习框架
本文提出使用联邦强化学习(Federated Reinforcement Learning)框架,在 WiFi 网络中实现多链路操作(Multi-link Operation),以优化资源分配和避免信道争用,通过模拟结果表明 FRL 分散化 - 联邦强化学习:技术、应用和未解决的挑战
本文介绍了联邦强化学习 (Federated Reinforcement Learning, FRL) 的全面调查,重点介绍了 FRL 作为一种新的方法,其基本思想是利用联邦学习来提高 RL 的性能,同时保护数据隐私。根据框架中代理的分布特