Oct, 2017

元学习共享层级

TL;DR本文提出了一种元学习方法,通过使用共享的基元,改进对未见过任务样本的样本效率,并提供了衡量其效果的具体指标;同时,通过重置任务特定策略并使用任何现成的强化学习方法,我们实现了这一方法的端到端解决方案,成功地在用四条腿的机器人互动的迷宫分布中发现了有意义的运动原语,并且将原语应用于解决长时间尺度的稀疏奖励障碍航线问题,从而使三维人形机器人能够稳健地行走和爬行。