BERT 在连续任务中能否避免遗忘？一个探究研究

ICLRMar, 2023

BERT 在连续任务中能否避免遗忘？一个探究研究

Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study

Mingxu Tao, Yansong Feng, Dongyan Zhao

TL;DR该研究发现预训练语言模型 BERT 能够在学习新任务时不需要稀疏经验回放外就能保留以前所学的知识，通过探究其机制并采用记忆重演方法能够有效减少任务增量学习中的遗忘。

Abstract

Large pre-trained language models help to achieve state of the art on a variety of natural language processing (NLP) tasks, nevertheless, they still suffer from forgetting when incrementally learning a sequence o

pre-trained language models forgetting sparse experience replay local adaption memory rehearsal

发现论文，激发创造

BERTnesia: 探究 BERT 中知识的捕捉和遗忘

这篇文章探讨了 BERT 模型如何从它的参数化内存中获取关系知识，并使用知识库补全任务在 BERT 的每一层中进行了测试。作者发现，中间层对于 BERT 模型中的总知识量贡献了很大的部分，同时发现 fine-tune 时，与训练数据和训练目标有关。而容量和事实密度是学习事实的关键。

Jun, 2021

回忆和学习：用更少的忘却对深度预训练语言模型进行微调

本论文提出了一种召回和学习机制，它采用了多任务学习的思想，联合学习预训练任务和下游任务，通过先简单地回忆预训练任务的知识，然后逐渐关注下游任务的学习，以实现减少忘记的微调。实验表明，该方法在 GLUE 基准上实现了最新的性能，并为 NLP 社区提供了开源的 RecAdam 优化器。

Apr, 2020

具有 Transformer 的内存高效的持续学习

使用预训练 Transformers 并扩展它们与 Adapters，我们开发了一种方法来增量训练模型处理任务序列，成功地避免了灾难性遗忘并且在多个任务上表现良好。

Mar, 2022

利用稀疏经验回放进行元学习，实现终身语言学习

本文提出了一种基于元学习和稀疏经验回放的方法来实现连续学习，以避免深度学习模型在顺序学习任务时遗忘先前的知识。该方法在真实场景下实现了连续的文本分类和关系提取任务，并展示了其低计算和空间复杂度。

Sep, 2020

学习还是回忆？再探基于预训练语言模型的增量学习

在自然语言处理领域中，基于预训练语言模型的增量学习的研究表明，现有的方法普遍低估了预训练语言模型天生的抗遗忘能力，研究者提出了一种名为 SEQ * 的简单方法，它在各项度量上与最先进的增量学习方法具有竞争力或更好的表现，并且需要较少的可训练参数和训练时间。

Dec, 2023

预训练在终身学习中的作用的实证调查

通过调查现有的方法及其在预训练模型上的表现，我们观察到 Generic Pre-training 方法隐含地减轻了多任务学习中遗忘现象的影响，因为预训练权重看起来通过导致更宽的极小值来缓解遗忘现象，基于这个发现，我们建议联合当前任务的损失和损失基底锐度的优化方法，以在顺序微调期间显式地鼓励更宽的基底，在多种设置中实现与最新技术的性能相当的顺序连续学习，而无需保留随任务数缩放的内存。

Dec, 2021

受限内存下高效元生存学习

本文提出一个高效的元学习框架，将终身学习的三个普遍原则相结合，以有效地训练同时避免灾难性遗忘和负迁移，并达到与多任务学习相当的性能。

Oct, 2020

小语料下 LSTM 和 BERT 的对比

本文利用小型数据集对比了双向 LSTM 模型和预训练 BERT 模型的表现，结果表明对于小数据集，使用双向 LSTM 模型的性能显著优于使用 BERT 模型，且训练时间更短，因此在选择模型时需要考虑任务和数据等因素。

Sep, 2020

神经语言模型中近似短期记忆的特征化

该研究考察了语言模型在处理文本时是否能够检索先前出现的确切单词，并发现 transformers 模型可以从第一次出现的名词清单中提取词语的身份和排序，而 LSTM 模型则更加侧重于先前单词的语义要点，以及其与列表中其他单词的关系。

Oct, 2022

记忆力强还是弱？深入探究语言模型记忆机制

对预训练语言模型进行了多种实验，发现预训练模型有助于保持记忆，而非预训练的神经网络具有遗忘的问题，并且知识相关性和多样性会显着影响记忆形成。这些结论有助于了解预训练模型的能力，同时也为语言模型的新学习和推断算法的设计和评估提供了启示。

May, 2023