May, 2024

具约束异构的联邦强化学习

TL;DR我们研究了具有约束异构性的联邦强化学习(FedRL)问题,通过多个智能体在不同环境下协同学习,解决具有多个约束的强化学习问题,并提出了基于传统策略梯度方法的联邦原始 - 对偶策略优化方法,其中我们关注的两种算法为 FedNPG 和 FedPPO,通过使用深度神经网络,FedPPO 有效地解决了复杂的学习任务。