Feb, 2022
通过适应性规则对抗训练实现史塔克伯格博弈的坚韧强化学习
Robust Reinforcement Learning as a Stackelberg Game via
Adaptively-Regularized Adversarial Training
TL;DR本文介绍了一种用于强化学习的Stackelberg游戏模型——RRL-Stack,旨在提供额外的鲁棒性训练和解决目前RL训练中存在的过度保守智能及训练不稳定等问题,并提出了一种基于Stackelberg Policy Gradient算法的解决方案,在单一和多智能体任务中展现更好的训练稳定性和鲁棒性。