Mar, 2017
深度聚合:序列预测的可微分模仿学习
Deeply AggreVaTeD: Differentiable Imitation Learning for Sequential Prediction
Wen Sun, Arun Venkatraman, Geoffrey J. Gordon, Byron Boots, J. Andrew Bagnell
TL;DR使用 Imitation Learning 的 Policy Gradient Extension 能够充分利用优秀的预测模型,在深度神经网络处理的机器人控制及序列预测任务上比弱化的 Reinforcement Learning 更高效、损失较小,其 IL 的理论研究展现 AggreVaTeD 比其他 RL 算法更少的样本能达到更优质的性能