Mar, 2017

深度聚合:序列预测的可微分模仿学习

TL;DR使用 Imitation Learning 的 Policy Gradient Extension 能够充分利用优秀的预测模型,在深度神经网络处理的机器人控制及序列预测任务上比弱化的 Reinforcement Learning 更高效、损失较小,其 IL 的理论研究展现 AggreVaTeD 比其他 RL 算法更少的样本能达到更优质的性能