Sep, 2023

结合时空抽象以实现更好的泛化规划

TL;DRSkipper 是一个受人类有意识规划启发的基于模型的强化学习代理,利用空间和时间抽象来在新情境中推广学到的技能,通过自动将任务分解为更小、更可管理的子任务来实现稀疏决策,并将计算集中在环境相关的部分。与现有的基于层次规划的方法相比,基于图的高层代理问题的定义和端到端学习的顶点和边的学习确保了性能保证,理论分析确定了我们的方法在何种情况下有帮助。通过以泛化为重点的实验验证,Skipper 在零样本泛化方面具有显著优势。