Mar, 2024

联合策略梯度方法在存在对手情况下的全局收敛保证

TL;DR在 Federated Reinforcement Learning 中,我们提出了一种基于策略梯度的方法,能够在存在对抗性代理的情况下,实现全局收敛性保证,并具有较低的样本复杂度。