Sep, 2022

基于强化学习的机器人导航中改进的策略蒸馏

TL;DR通过多个场景可验证强化学习通过策略提取(MSVIPER)提出了一种新的策略精馏方法,用于改进机器人导航。通过任何 RL 技术学习状态 - 动作映射,并使用模仿学习从中学习决策树策略,从而学习 “专家” 策略。我们通过室内和室外场景的机器人导航算法的改进演示了我们的方法。