Apr, 2020
先回报,后探索
First return, then explore
Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O. Stanley, Jeff Clune
TL;DRGo-Explore 算法通过显式地记住有前途的状态并在有意探索之前首先回到这些状态的简单原则,直接解决了探索中的 “detach” 和 “derailment” 问题,并在所有难探索游戏上超越了现有技术,并在稀疏奖励抓取放置机器人任务上展示了其实际潜力。