Jul, 2023

博弈论的鲁棒强化学习处理时耦合扰动

TL;DR提出了一个新的挑战,即通过 GRAD 方法将强化学习中的时间上耦合的扰动问题视为部分可观察的两人零和游戏,并通过在该游戏中找到逼近均衡来确保智能体对于时间上耦合的扰动的鲁棒性,实验结果表明,相比于基准方法,在状态空间和动作空间中,所提出的方法在多种连续控制任务上对抗标准攻击和时间上耦合攻击都展现出显著的鲁棒性优势。