ICMLMay, 2023

掩码轨迹模型:预测、表征和控制

TL;DR本文介绍了遮盖轨迹模型 (MTM) 作为顺序决策制定的一般抽象。MTM 采取轨迹,如状态动作序列,并旨在在相同轨迹的随机子集的条件下重建轨迹。通过高度随机化的遮盖模式进行训练,MTM 学习多功能网络,可以通过在推理时选择适当的遮罩来扮演不同的角色或具有不同的能力。通过在几个连续控制任务中进行广泛的实验,我们展示了相同的 MTM 网络可以匹配或优于专门针对前述能力进行训练的网络。此外,我们发现 MTM 学到的状态表示可以显着加速传统 RL 算法的学习速度。最后,在离线 RL 基准测试中,我们发现 MTM 尽管是一种通用的自监督学习方法,并且没有任何明确的 RL 组件,但它与专门的离线 RL 算法相竞争。