AAAISep, 2015

参数化行动下的强化学习

TL;DR介绍了一种无模型算法,用于在具有参数化动作的马尔可夫决策过程中学习 - 离散动作具有连续参数。提出了用于在这些领域中学习的 Q-PAMDP 算法,并将其与 Platform 和 Goal-scoring 领域中的直接政策搜索进行比较。