ICMLJun, 2019

使用策略蒸馏和 Sim2Real 传输在现实中部署的连续强化学习

TL;DR研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务,而不会忘记以前的任务。研究采用强化学习算法,应用于三轮全向机器人的 2D 导航任务,通过状态表征学习和策略蒸馏的方法,提高算法的样本效率与任务综合性能。