Jun, 2018

BaRC:机器人强化学习的反向可达性课程

TL;DR借助物理先验形式的近似系统动力学模型,我们设计了一个课程方案来优化无模型策略优化算法。我们的课程策略在任何模型无关 RL 算法上都是通用的,并且其课程战略在物理上直观、易于调节,并允许加速培训,同时不影响模型无关 RL 算法的性能、灵活性和适用性。