Oct, 2020

学习技能先验加速强化学习

TL;DR通过学习技能先验分布,将其用于最大熵强化学习,能够在导航和机器人操作任务中实现有效的技能传输。