Nov, 2023
JAX 中用于自学习任务的高效基线算法
minimax: Efficient Baselines for Autocurricula in JAX
Minqi Jiang, Michael Dennis, Edward Grefenstette, Tim Rocktäschel
TL;DR无监督环境设计(UED)是一种自动课程学习的形式,用于训练强大的决策制定代理,使其能够在未知环境中进行零样本迁移。本研究介绍了用于加速硬件上的 UED 训练的 minimax 库,并利用 JAX 实现完全张量化的环境和自动课程算法,以便该训练循环可以进行硬件加速。minimax 包括基于 MiniGrid 的张量化网格世界,以及在生成过程中进行自动课程设计的可重复使用的抽象层,为快速实验提供了实验平台。该库提供了强大的基准模型,包括新的并行化变体,在训练过程中与相等批次大小相比,实现了超过 120 倍的加速。