Feb, 2020

Ready Policy One: 通过积极学习构建世界

TL;DR本文介绍了Ready Policy One (RP1),将基于模型的强化学习视为一个主动学习问题,利用混合目标函数,在优化期间关键性的适应,以便在学习的不同阶段权衡奖励与探索,同时介绍了一个原则性的机制以停止样本收集。在多个连续控制任务中对方法进行了严格评估,并证明了与现有方法相比的显著增益。