May, 2020

随机斯塔克伯格安全博弈的无模型强化学习

TL;DR本文提出了一种基于预期 Sarsa 的强化学习算法,使用粒子筛选器估计共同代理的信念更新,并以安全游戏示例说明了所学习的策略。