Apr, 2019

主动域随机化

TL;DR本文就域随机化技术在代理泛化方面的影响进行了实证研究,提出了一种新颖的算法Active Domain Randomization,该算法学习参数采样策略,通过利用随机化和参考环境实例之间的策略汇聚差异来查找给定随机化范围内最具有信息量的环境变化,通过在这些实例上更频繁地训练,提高代理泛化的整体性能,实验结果表明在各种基于物理模拟和真实机器人任务中,该增强技术能够导致更强健、一致的策略。