Jul, 2022

USHER: 无偏采样的回顾经验回放

TL;DR提出了一种基于重要性采样的算法来处理稀疏奖励带来的偏差问题,并在高维度随机环境中显示了其有效性。