Dec, 2022

先 Go,后 Post-Exploration:后探索在内在动机中的益处

TL;DR该论文研究了强化学习领域中的一种新方法 “Go-Explore”,通过后探索 (post-exploration) 的方式探明未知状态,通过试验在 MiniGrid 和 Mujoco 环境下得出结论,该方法具有通用性,易于实现,RL 研究人员可考虑在 intrinsically motivated goal exploration process 中采用 post-exploration。