Jun, 2020

PlanGAN:基于模型的稀疏奖励和多目标规划

TL;DR本研究提出了 PlanGAN,一种使用模型的算法,专门针对具有稀疏奖励环境的多目标任务进行求解,该算法比最成功的基于无模型 RL 算法的方法在提高 4-8 倍的样本效率下达到可比较的表现。