P2DT：基于渐进提示的决策 Transformer 对任务增量学习中的遗忘进行缓解

Jan, 2024

P2DT：基于渐进提示的决策 Transformer 对任务增量学习中的遗忘进行缓解

P2DT: Mitigating Forgetting in task-incremental Learning with progressive prompt Decision Transformer

Zhiyuan Wang, Xiaoyang Qu, Jing Xiao, Bokui Chen, Jianzong Wang

TL;DR通过在新任务训练期间动态追加决策标记，我们的方法，Progressive Prompt Decision Transformer (P2DT)，改进了基于 transformer 的模型，从而促进了任务特定策略，减轻并行和离线强化学习情景中发生的灾难性遗忘，并且能够保留前期研究的知识并适应不断增加的任务环境。

Abstract

catastrophic forgetting poses a substantial challenge for managing intelligent agents controlled by a large model, causing performance degradation when these agents face new tasks. In our work, we propose a novel

catastrophic forgetting intelligent agents progressive prompt decision transformer offline reinforcement learning task environments

发现论文，激发创造

具有 Transformer 的内存高效的持续学习

使用预训练 Transformers 并扩展它们与 Adapters，我们开发了一种方法来增量训练模型处理任务序列，成功地避免了灾难性遗忘并且在多个任务上表现良好。

Mar, 2022

对话状态跟踪的继续提示调整

本文提出了一种连续的提示调整参数有效的框架，可避免对旧任务的遗忘并在任务之间实现知识转移，验证实验表明该方法在对话状态跟踪领域中具有有效性和高效性。

Mar, 2022

小样本策略概括的决策 Transformer

人类可以利用以往的经验从少量的演示中学习新的任务。我们提出了一种基于 Prompt-DT 的模型，它借助 Transformer 架构的序列建模能力和 prompt 框架，在离线 RL 中实现了少量样本的适应性。我们的实验表明，Prompt-DT 是一种强大的少量样本学习器，可以在目标任务上进行良好的泛化。

Jun, 2022

持续学习自动提示学习

提出了利用动态提示 (L2P) 来训练更简洁的神经网络内存系统的方法，以管理任务不变和任务特定知识，从而在各种挑战性的图像分类基准测试中取得了比之前最先进方法更好的结果。

Dec, 2021

CODA-Prompt: 基于分解注意力的持续提示学习

提出了一种注意力机制的端到端关键查询方案，该方案使用输入为条件的权重来组装预置组件以生成输入为条件的提示，以解决在不断变化的训练数据中进行学习时出现的过度遗忘问题，并在多个基准测试中大幅提高了准确度。

Nov, 2022

连续学习的记忆变压器

记忆转换器是应对神经网络在连续学习中面临的灾难性遗忘挑战的一种方法，通过引入混合适配器和基于生成模型的路由机制来减轻这个问题，实现了各种视觉连续学习任务的最新性能和出色的参数效率。

Apr, 2024

渐进式提示：语言模型的持续学习

利用 Progressive Prompts 方法解决语言模型领域中的连续学习问题，它以前向传递为基础，无需数据重放或大量的任务特定参数，并且其推动学习的方式有助于抵御灾难性遗忘，实验表明相对于 T5 模型的最佳方法，平均测试准确性提高了 20% 以上，即使在较长序列的任务中，我们的方法也明显优于之前的方法。

Jan, 2023

循环记忆决策 Transformer

本文提出了递归记忆决策变换器（RMDT），使用递归记忆机制用于强化学习问题，旨在改善大规模转换器模型在离线强化学习任务中的表现，实验证明，其性能明显优于没有递归记忆机制的同类模型。

Jun, 2023

使用预训练 Transformer 的 S-Prompts 学习：领域增量学习的 Occam 剃刀

本研究提出了 S-Prompting 范式和两种方法，通过独立学习提示，从而高度减少领域增量学习（DIL）中的遗忘程度，实现了深度神经网络在连续学习中一个最典型的场景 -- 领域增量学习（DIL）中的最佳表现。

Jul, 2022

DyTox：使用动态令牌扩展的 Transformers 进行持续学习

提出了一种基于 Transformer 架构和共享编码器 / 解码器框架的策略，采用动态扩展特殊标记以使解码器网络适用于任务分布，从而在大数据集上取得优异结果，且不需要超参数调整。

Nov, 2021