Mar, 2016

指导成本学习:基于策略优化的深层逆最优控制

TL;DR本文旨在探讨如何使用逆优化控制(IOC)从演示学习行为,具体应用于对高维机器人系统的扭矩控制。作者提出了一种算法,能够学习任意的非线性成本函数(如神经网络);同时提出了一种针对 MaxEnt IOC 的高效的基于采样的近似方法。通过一系列模拟任务和真实的机器人操作问题的评估,该方法能够实现显著的任务复杂度和样本效率的提升。