Nov, 2023

联邦自然策略梯度方法用于多任务强化学习

TL;DR多任务情境下的联邦强化学习,通过策略优化实现分布式决策,并建立了全局收敛性保证。