May, 2018

稀疏奖励确定性马尔可夫决策过程的快速在线精确解法

TL;DR介绍了一种新的方法,确切高效地解决了具有稀疏奖励来源的确定性连续MDP问题,可以提高在机器人和无人系统等领域的应用价值,减少计算复杂度。