Nov, 2018

深度多智能体强化学习的贝叶斯行动解码器

TL;DR使用Bayesian action decoder(BAD)的公开信念马尔可夫决策过程(public belief MDP)算法,成功在Hanabi卡牌游戏中超越了所有以前发表的学习方法和手动编写方法,创立了新的最先进水平。