May, 2020

MOPO: 基于模型的离线策略优化

TL;DR本文提出了一种基于模型的离线策略优化算法(MOPO),通过将模型地图上未知点处的即时报酬设置为高风险,从而优化模型训练过程中的代理策略,以解决离线数据分布发生漂移的问题,并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。