Apr, 2020

共享自主权的残差策略学习

TL;DR提出了一种模型自由、剩余策略学习算法来实现共享自主,将人与机器人的互补优势结合起来,以实现共同的目标,在 Lunar Lander 和 6-DOF quadrotor reaching task 两个连续控制环境中测试,表明此方法可以显著提高任务绩效。