ICLRJan, 2019

多智能体强化学习的概率递归推理

TL;DR本论文提出了一种基于递归推理与变分 Bayes 方法的多智体强化学习框架,该框架可以用于建模智体对手的行为,提高智体的自我决策能力以及使其在博弈中达成 Nash 均衡。实验证明,关于智体对手信念的推理,是智体强化学习中一个重要的方向。