ICLRApr, 2023

稀疏奖励领域结构化探索的学习成就结构

TL;DR提出了一种名为 SEA 的多阶段强化学习算法,用于处理内部包含成就的环境,首先使用离线数据学习已知成就的表示,然后通过启发式算法恢复学习成就的依赖关系图,并通过与该图交互来学习掌握已知成就并发掘新成就的策略,从而提高了高维度观察下的探索能力。