Jan, 2019

基于组合的Q学习算法在斗地主中的应用

TL;DR本文研究了一类特殊的亚洲纸牌游戏斗地主,针对其巨大的行动空间提出了一种名为组合Q学习的新方法,利用两阶段网络和池化操作提取基本行动之间的关系,结果表明比传统的Q学习和A3C等算法更优,并使用对抗训练方法仅凭游戏规则训练出了可与人类媲美的代理。