Oct, 2019

调节轨迹生成器的政策

TL;DR本文提出了一种利用简单策略调制轨迹生成器的体系结构,通过深度强化学习和进化策略学习出具有可控行为的四足机器人运动,实现了从 IMU 观测数据中控制速度的步态诱导。