Nov, 2023

JAX 中用于自学习任务的高效基线算法

TL;DR无监督环境设计(UED)是一种自动课程学习的形式,用于训练强大的决策制定代理,使其能够在未知环境中进行零样本迁移。本研究介绍了用于加速硬件上的 UED 训练的 minimax 库,并利用 JAX 实现完全张量化的环境和自动课程算法,以便该训练循环可以进行硬件加速。minimax 包括基于 MiniGrid 的张量化网格世界,以及在生成过程中进行自动课程设计的可重复使用的抽象层,为快速实验提供了实验平台。该库提供了强大的基准模型,包括新的并行化变体,在训练过程中与相等批次大小相比,实现了超过 120 倍的加速。