BriefGPT.xyz
Ask
alpha
关键词
action masking
搜索结果 - 1
策略梯度算法中无效动作屏蔽的深入研究
本文研究探讨针对复杂的规则游戏,使用深度强化学习算法时,如何解决学习出的策略生成的无效动作问题,给出了合理的理论支持,实证了有效性,并给出了不同的行动遮罩方案的评估。
PDF
4 years ago
Prev
Next