Nov, 2022

基于掩码自编码的可扩展通用决策制定

TL;DR本文提出了一种名为 MaskDP 的简单、可扩展的自监督预训练方法,用于强化学习和行为克隆。这种方法利用了掩码自编码器(MAE)在状态 - 动作轨迹中的作用,可以更好地学习多个下游任务的模型。实验表明,MaskDP 模型的零 - shot 迁移和有前途的规模化行为与模型大小有关。