NIPSOct, 2015

通过随机值梯度学习连续控制策略

TL;DR本文提出了一种使用反向传播学习连续控制策略的统一框架,并通过将贝尔曼方程中的随机性视为外源噪声的确定性函数,来支持随机控制。结果是一系列从有值函数的无模型方法到无值函数的有模型方法的通用策略梯度算法谱。我们使用学习模型,但只需要来自环境的观察而不是模型预测轨迹的观察,最大程度地减少复合模型错误的影响。我们首先将这些算法应用于一个玩具随机控制问题,然后在模拟中将其应用于几个基于物理的控制问题。其中一种变体 SVG(1)显示了在连续领域同时学习模型,价值函数和策略的有效性。