AAAIDec, 2019

使用分层策略从干预中学习以实现安全学习

TL;DR通过将专家的干预向前插值并将策略分为两个层次,一个生成未来的子目标,另一个生成到达这些期望子目标的动作,我们在学习过程中引入了目标预测的思想,从而增强算法学习长期行为,同时还能够抵御专家反应时间的影响,提高了机器人上的学习效果。