Dec, 2019

深度多智能体强化学习的简化行动解码器

TL;DR该研究提出了一种基于深度多智能体强化学习方法,即Simplified Action Decoder(SAD),它通过利用集中式训练阶段解决了训练过程中策略非常难以观察的问题,从而在Hanabi挑战赛的部分元素中,建立了一个新的SOTA,提高了理解其他网络的能力。