Jan, 2022

零样本组合强化学习环境生成

TL;DR通过训练生成器创建任务序列的自动课程表,以使强化学习代理能够完成复杂的组合任务,提高其健壮性和泛化能力,我们提出了一种名为 CoDE 的新算法,并对其进行了分析和评估