Jan, 2024

P2DT:基于渐进提示的决策 Transformer 对任务增量学习中的遗忘进行缓解

TL;DR通过在新任务训练期间动态追加决策标记,我们的方法,Progressive Prompt Decision Transformer (P2DT),改进了基于 transformer 的模型,从而促进了任务特定策略,减轻并行和离线强化学习情景中发生的灾难性遗忘,并且能够保留前期研究的知识并适应不断增加的任务环境。