ICMLJun, 2022

小样本策略概括的决策 Transformer

TL;DR人类可以利用以往的经验从少量的演示中学习新的任务。我们提出了一种基于 Prompt-DT 的模型,它借助 Transformer 架构的序列建模能力和 prompt 框架,在离线 RL 中实现了少量样本的适应性。我们的实验表明,Prompt-DT 是一种强大的少量样本学习器,可以在目标任务上进行良好的泛化。