May, 2021
MapGo: 面向目标任务的模型辅助策略优化
MapGo: Model-Assisted Policy Optimization for Goal-Oriented Tasks
TL;DR本文提出了一种名为FGI的新的重标记策略用于改善回报稀疏性问题,并通过引入动态模型来生成模拟轨迹来提高采样效率,提出了一种名为MapGo框架用于目标导向任务的模型辅助策略优化, 并在复杂任务上的实验证明了FGI策略相比后见策略的有效性,并且MapGo框架相对于无模型的基线表现出更高的采样效率。