Feb, 2022

通过适应性规则对抗训练实现史塔克伯格博弈的坚韧强化学习

TL;DR本文介绍了一种用于强化学习的 Stackelberg 游戏模型 ——RRL-Stack,旨在提供额外的鲁棒性训练和解决目前 RL 训练中存在的过度保守智能及训练不稳定等问题,并提出了一种基于 Stackelberg Policy Gradient 算法的解决方案,在单一和多智能体任务中展现更好的训练稳定性和鲁棒性。