AAAIJun, 2019

当并非所有操作都可用时的强化学习

TL;DR本文介绍了基于马尔可夫决策过程(MDP)中存在确定性可选动作集合的局限性,提出了一种新的基于随机动作集合的马尔可夫决策过程(SAS-MDP)模型,并针对旧 RL 算法在 SAS-MDP 中可能存在的发散问题,提出了包含独特的方差缩减技术的新的策略梯度算法以及收敛条件,并通过真实用例启发的任务实验表明了该方法的实用性。