学习还是回忆？再探基于预训练语言模型的增量学习

Dec, 2023

学习还是回忆？再探基于预训练语言模型的增量学习

Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Models

Junhao Zheng, Shengjie Qiu, Qianli Ma

TL;DR在自然语言处理领域中，基于预训练语言模型的增量学习的研究表明，现有的方法普遍低估了预训练语言模型天生的抗遗忘能力，研究者提出了一种名为 SEQ * 的简单方法，它在各项度量上与最先进的增量学习方法具有竞争力或更好的表现，并且需要较少的可训练参数和训练时间。

Abstract

incremental learning (IL) has been a long-standing problem in both vision and Natural Language Processing (NLP) communities. In recent years, as Pre-trained Language Models (PLMs) have achieved remarkable progress in various NLP downstream tasks, utilizing PLMs as backbones has become

incremental learning pre-trained language models catastrophic forgetting anti-forgetting ability seq* method

发现论文，激发创造

Concept-1K：一种实例增量学习的全新基准

基于对 Concept-1K 实验的研究，揭示了数十亿参数的预训练语言模型仍然受到灾难性遗忘的影响，并且遗忘受模型规模、预训练和缓冲区大小的影响。同时，现有的增量学习方法和一种流行的微调技术 LoRA 都无法达到令人满意的性能。这项研究为进一步探索预训练语言模型的灾难性遗忘提供了新的研究场景，鼓励设计更强大的技术来缓解预训练语言模型的遗忘问题。

Feb, 2024

视觉语言模型的无遗忘学习

我们提出了一种叫做 PROOF 的模型，它通过训练任务特定的映射来解决 Vision-Language Models 在 Class-Incremental Learning 时候遗忘问题，并且通过融合多模态信息来提高模型的语义表示能力。在九个基准数据集上进行的实验表明，PROOF 达到了最先进的性能。

May, 2023

通过主动遗忘预训练以提高语言可塑性

本文提出使用主动遗忘机制作为预训练过程中的一种简单方法，以创建能够快速适应新语言的 PLMs。实验证明，与标准模型相比，在资源匮乏的情况下，使用遗忘机制的预先训练模型不仅在语言适应过程中表现出更快的收敛速度，而且在特别是对于与英语不同的语言来说表现更佳。

Jul, 2023

回忆和学习：用更少的忘却对深度预训练语言模型进行微调

本论文提出了一种召回和学习机制，它采用了多任务学习的思想，联合学习预训练任务和下游任务，通过先简单地回忆预训练任务的知识，然后逐渐关注下游任务的学习，以实现减少忘记的微调。实验表明，该方法在 GLUE 基准上实现了最新的性能，并为 NLP 社区提供了开源的 RecAdam 优化器。

Apr, 2020

基于标签生成的类增量学习

本文提出了一种新的类增量学习方法（VAG），通过将类增量学习视为一个连续标签生成问题，利用预先训练模型的可推广表达来减少灾难性遗忘，并利用词汇表的稀疏性来聚焦生成，同时通过使用标签语义来创建伪重放样本。实验结果表明，VAG 方法的表现优于基线方法。

Jun, 2023

关于在代码的预训练语言模型中使用连续学习以实现针对分布外的泛化

本文提出可解决 Pre-trained language models 在软件代码动态环境下 catastrophic forgetting 问题的五种 continual learning methods，并在两个 downstream tasks 中取得可比较或优越的表现。

May, 2023

预训练在终身学习中的作用的实证调查

通过调查现有的方法及其在预训练模型上的表现，我们观察到 Generic Pre-training 方法隐含地减轻了多任务学习中遗忘现象的影响，因为预训练权重看起来通过导致更宽的极小值来缓解遗忘现象，基于这个发现，我们建议联合当前任务的损失和损失基底锐度的优化方法，以在顺序微调期间显式地鼓励更宽的基底，在多种设置中实现与最新技术的性能相当的顺序连续学习，而无需保留随任务数缩放的内存。

Dec, 2021

对齐的大型语言模型连续预训练中的遗忘现象研究

连续预训练中灾难性遗忘现象对于已经经过微调的大规模语言模型的影响及重复问题的挑战。

Jan, 2024

对于每个 (文本序列) 的独立性：改进大型语言模型中的记忆数据遗忘

通过新的度量衡、对抗攻击以及基于梯度上升和任务算术的两种新的遗忘方法，本研究提供了关于 LLMs 隐私保护和遗忘的新视角，并在大量 NLP 任务上进行了全面的性能评估。

May, 2024

BERT 在连续任务中能否避免遗忘？一个探究研究

该研究发现预训练语言模型 BERT 能够在学习新任务时不需要稀疏经验回放外就能保留以前所学的知识，通过探究其机制并采用记忆重演方法能够有效减少任务增量学习中的遗忘。

Mar, 2023