Dec, 2022

如何解决国家对抗性多智能体强化学习?

TL;DR本文提出了一种新的状态对抗性马尔可夫博弈模型,基于最坏情况下预期状态价值最大的状态强化学习策略,尝试解决现有方法在状态不确定性下的一些问题,同时提出了一种新的鲁棒性算法 RMA3C, 并证明了有限状态有限行动空间下稳健代理策略的存在性,实验结果显示出其对于状态扰动的鲁棒性更高。