ICMLMar, 2017

轨迹中心增强学习的模型基与模型无更新相结合

TL;DR本文研究如何在模型无关和模型有关的强化学习方法中结合时间变化的线性高斯策略,通过基于线性二次调节器的模型有关算法与基于路径积分策略改进的模型无关框架相结合,并与指导策略搜索相结合,训练深度神经网络等任意参数策略,以提高实时机器人应用的模型效率和数据效率。研究表明,该方法可以解决具有挑战性的操作任务,其表现与模型无关方法相比具有可比性或更好的表现,同时保持模型有关方法的样本效率。