Jun, 2017

路径积分网络:端到端可微分最优控制

TL;DR本文提出了一种叫做 PI-Net 的循环神经网络,使用路径积分最优控制算法来实现系统动态学习及成本模型,并通过反向传播和随机梯度下降来端到端地学习动态和成本模型,从而实现规划。通过模仿学习的方式训练 PI-Net,它可以在两个模拟问题上模拟控制演示,并且可以学习演示中的动态和成本模型。