ICLRJan, 2019
多智能体强化学习的概率递归推理
Probabilistic Recursive Reasoning for Multi-Agent Reinforcement Learning
Ying Wen, Yaodong Yang, Rui Luo, Jun Wang, Wei Pan
TL;DR本论文提出了一种基于递归推理与变分 Bayes 方法的多智体强化学习框架,该框架可以用于建模智体对手的行为,提高智体的自我决策能力以及使其在博弈中达成 Nash 均衡。实验证明,关于智体对手信念的推理,是智体强化学习中一个重要的方向。