Jun, 2020

策略梯度算法中无效动作屏蔽的深入研究

TL;DR本文研究探讨针对复杂的规则游戏,使用深度强化学习算法时,如何解决学习出的策略生成的无效动作问题,给出了合理的理论支持,实证了有效性,并给出了不同的行动遮罩方案的评估。