Feb, 2017

学习重复:深度强化学习中的细粒度动作重复

TL;DR本文提出了一种新的框架 Fine Grained Action Repetition (FiGAR),该框架使代理能够在与环境交互的每个时间步长上决定动作以及重复该动作的时间尺度,可用于改进任何维护显式策略估计的深度强化学习算法。我们通过在不同领域的三个策略搜索算法上展示其性能改进,从而在 Atari 2600 领域中异步优势演员评论家,Mujoco 领域中的信任区域策略优化以及 TORCS 汽车比赛领域中的深度确定性策略梯度上展现了我们框架的效力。