IJCAIMay, 2021
MapGo: 面向目标任务的模型辅助策略优化
MapGo: Model-Assisted Policy Optimization for Goal-Oriented Tasks
Menghui Zhu, Minghuan Liu, Jian Shen, Zhicheng Zhang, Sheng Chen...
TL;DR本文提出了一种名为 FGI 的新的重标记策略用于改善回报稀疏性问题,并通过引入动态模型来生成模拟轨迹来提高采样效率,提出了一种名为 MapGo 框架用于目标导向任务的模型辅助策略优化, 并在复杂任务上的实验证明了 FGI 策略相比后见策略的有效性,并且 MapGo 框架相对于无模型的基线表现出更高的采样效率。