Oct, 2018

策略优化的政策转移

TL;DR本研究提出了一种基于域随机化的控制策略迁移方法,通过同时学习多种不同行为的控制策略来应对目标环境与训练环境之间的差异,而无需对动态参数进行识别,实验表明该方法可以成功地解决模型误差较大的情况。