Sep, 2023

基于生成轨迹建模的环境设计层次化方法

TL;DR无监督环境设计(UED)是一种培训通常能够实现良好零 - shot 转移性能的能力强大的代理的范式。我们提出了一种基于分层 MDP(马尔可夫决策过程)的新框架,通过指导学生的性能,上层 MDP 来培训下层 MDP 学生代理。我们的算法 SHED(Synthetically-enhanced Hierarchical Environment Design)显著减少了代理与环境之间资源密集型的交互,并证明了 SHED 的多种优势,以及它作为 UED 框架中的一种有效工具的效果。