Oct, 2020

COG: 利用离线强化学习将新技能连接到过去的经验

TL;DR通过动态规划来利用之前的机器人行为数据拓展新的技能的研究,该方法可以允许机器人通过先前解决的任务或通过自主或无指导的环境交互来扩展和概括学习的行为,同时获得对自身环境的更广泛的理解和学习更好的策略。