具有 Transformer 的内存高效的持续学习

Mar, 2022

具有 Transformer 的内存高效的持续学习

Memory Efficient Continual Learning with Transformers

Beyza Ermis, Giovanni Zappella, Martin Wistuba, Aditya Rawal, Cedric Archambeau

TL;DR使用预训练 Transformers 并扩展它们与 Adapters，我们开发了一种方法来增量训练模型处理任务序列，成功地避免了灾难性遗忘并且在多个任务上表现良好。

Abstract

In many real-world scenarios, data to train machine learning models becomes available over time. Unfortunately, these models struggle to continually learn new concepts without forgetting what has been learnt in the past. This phenomenon is known as catastrophic forgetting and it is dif

catastrophic forgetting incremental learning pre-trained transformers adapters predictive performance

发现论文，激发创造

连续学习的记忆变压器

记忆转换器是应对神经网络在连续学习中面临的灾难性遗忘挑战的一种方法，通过引入混合适配器和基于生成模型的路由机制来减轻这个问题，实现了各种视觉连续学习任务的最新性能和出色的参数效率。

Apr, 2024

基于 LoRA 的持续学习的任务算术

我们提出了一种新颖的方法，利用低秩适应和任务算术，不断训练基于 Transformer 的视觉模型，绕过灾难性遗忘问题并减少训练计算需求。在每个类别仅使用 10 个样本的小内存的帮助下，我们的方法实现了接近于完整微调的性能，并通过严格的消融实验证明了我们方法的优势。

Nov, 2023

DyTox：使用动态令牌扩展的 Transformers 进行持续学习

提出了一种基于 Transformer 架构和共享编码器 / 解码器框架的策略，采用动态扩展特殊标记以使解码器网络适用于任务分布，从而在大数据集上取得优异结果，且不需要超参数调整。

Nov, 2021

修改 Transformer 模型中的记忆

本文提出了一个新任务，即在确保模型在未修改的信息方面的性能不降低的情况下显式修改 Transformer 模型中特定的事实知识，并在此任务上基准化了几种方法，发现了用于知识修改的 Transformer 模型的关键组件，并提供了关于不同训练阶段（如预训练和微调）对记忆和知识修改所起作用的见解。

Dec, 2020

预训练在终身学习中的作用的实证调查

通过调查现有的方法及其在预训练模型上的表现，我们观察到 Generic Pre-training 方法隐含地减轻了多任务学习中遗忘现象的影响，因为预训练权重看起来通过导致更宽的极小值来缓解遗忘现象，基于这个发现，我们建议联合当前任务的损失和损失基底锐度的优化方法，以在顺序微调期间显式地鼓励更宽的基底，在多种设置中实现与最新技术的性能相当的顺序连续学习，而无需保留随任务数缩放的内存。

Dec, 2021

一项继续学习调查：在分类任务中应对遗忘

本文研究了基于任务增量分类的持续学习方法，提出了一种新的框架来确定持续学习者的稳定性与可塑性的权衡，并通过三个基准测试以及综合实验比较了 11 种持续学习方法和 4 种基线的方法的强弱和影响。

Sep, 2019

使用可学习记忆调优图像 Transformer

该研究提出使用可学习的记忆令牌来增强视觉 Transformer 模型，使其适应新任务，使用较少的参数，同时保留先前学习任务的能力。我们引入一组可学习的嵌入向量，即 “记忆令牌”，提供对特定数据集有用的上下文信息。该模型的准确性，通过每层只增加少量记忆令牌来显着改善，表现仅略低于显著更昂贵的完全微调。我们还提出了一个注意力掩模方法，使其能够扩展到新的下游任务，模型可在小的增量成本下同时执行旧任务和新任务。

Mar, 2022

用于对话建模的状态性记忆增强变压器

本研究提出一种新的记忆增强型 Transformer 模型，该模型可在不影响对话历史信息的情况下适应长序列处理，并且在相对于其他预训练 Transformer 模型存在着更高的效率和性能。

Sep, 2022

自生成的重播记忆用于持续神经机器翻译

通过利用编码器 - 解码器 Transformers 的生成能力，我们提出了一种新的方法来持续学习神经机器翻译系统，以有效地从包含不同语言的经验流中学习，通过使用模型作为生成器填充重播记忆来对抗灾难性遗忘，而无需明确记忆训练数据。

Mar, 2024

扩展心智转换器

预训练语言模型在推理时过长的输入会迅速成为记忆信息的瓶颈。本文提出了一种简单的方法，使用记忆转换器给模型提供预先计算的记忆库，通过批判性评估定位编码应如何更新以检索关键信息，而非使用外部嵌入。我们展示了在大多数解码器层中检索外部信息的重要性，并公开了一个新的反事实长距离检索基准。实验证明，扩展心智转换器在平均性能上超过了当今的最先进水平。

Jun, 2024