Oct, 2020

基于模型的策略优化与无监督模型适应

TL;DR探究建模强化学习方法中真实和模拟数据之间的分布差异所带来的性能下降问题,并提出了一种全新的模型自适应框架 AMPO,使用 Wasserstein-1 距离来实现模型适应,结果在多项连续控制测试任务中实现了最先进的性能。