Nov, 2017

连续动作任务的端到端学习选项

TL;DR使用选项框架及决策代价对连续任务中的动作进行学习,并利用邻近策略优化而不是基础策略梯度的方法在 Mujoco 领域取得了有前途的结果,进而引出了连续任务中何时使用特定选项的探讨。