ICLRJan, 2021

A Simple Approach for Exploration in Procedurally-Generated Environments: Episode Ranking

TL;DRRAPID 是为了针对面向过程的生成环境重复性不高的情况,适用于强化学习的全集探索评估方法。我们的实验显示,RAPID 在提高样本效率和最终性能方面,显著优于当前最先进的基于内部奖励的策略。