Jul, 2019

四足机器人数据有效强化学习

TL;DR本文提出了一种基于模型的机器人运动框架,在只采集 4.5 分钟(45,000 个控制步骤)的四足机器人数据的基础上实现了步行,通过引入跟踪多个时间步长上的模型预测的损失函数来准确地建模机器人的动力学,使学习到的模型可以进行实时控制,此方法比当前的无模型方法在样本效率上提高了一个数量级以上。