修改 Transformer 模型中的记忆

Dec, 2020

Modifying Memories in Transformer Models

Chen Zhu, Ankit Singh Rawat, Manzil Zaheer, Srinadh Bhojanapalli, Daliang Li...

TL;DR本文提出了一个新任务，即在确保模型在未修改的信息方面的性能不降低的情况下显式修改 Transformer 模型中特定的事实知识，并在此任务上基准化了几种方法，发现了用于知识修改的 Transformer 模型的关键组件，并提供了关于不同训练阶段（如预训练和微调）对记忆和知识修改所起作用的见解。

Abstract

Large transformer models have achieved impressive performance in many natural language tasks. In particular, Transformer based language models have been shown to have great capabilities in encoding factual knowledge

transformer models factual knowledge knowledge modification pretraining fine-tuning

发现论文，激发创造

扩展心智转换器

预训练语言模型在推理时过长的输入会迅速成为记忆信息的瓶颈。本文提出了一种简单的方法，使用记忆转换器给模型提供预先计算的记忆库，通过批判性评估定位编码应如何更新以检索关键信息，而非使用外部嵌入。我们展示了在大多数解码器层中检索外部信息的重要性，并公开了一个新的反事实长距离检索基准。实验证明，扩展心智转换器在平均性能上超过了当今的最先进水平。

Jun, 2024

具有 Transformer 的内存高效的持续学习

使用预训练 Transformers 并扩展它们与 Adapters，我们开发了一种方法来增量训练模型处理任务序列，成功地避免了灾难性遗忘并且在多个任务上表现良好。

Mar, 2022

预训练变压器网络中的知识神经元

本文提出预训练模型中知识神经元的概念并探究其如何存储事实知识，通过使用填空测试来确定知识神经元并证明其与对应事实的正相关性。进一步研究表明，可以利用知识神经元对特定的事实进行编辑并揭示了其存储知识的方式。

Apr, 2021

记忆增强生成对抗变换器

本研究探讨了在 Transformers 基础上添加额外的记忆库和注意力层以解决生成语言中的外部数据整合问题，并展示了该方法在处理事实问题和风格适应应用中的实用性。

Feb, 2024

记忆 Transformer

本文介绍了一种使用内部储存器实现直接读取并记忆新数据的语言模型，在多个基准测试和任务中展示了近似 kNN 查找技术，着重测试了代码和数学等领域，并证明了随着储存器大小的增加，性能将稳步提高。

Mar, 2022

使用可学习记忆调优图像 Transformer

该研究提出使用可学习的记忆令牌来增强视觉 Transformer 模型，使其适应新任务，使用较少的参数，同时保留先前学习任务的能力。我们引入一组可学习的嵌入向量，即 “记忆令牌”，提供对特定数据集有用的上下文信息。该模型的准确性，通过每层只增加少量记忆令牌来显着改善，表现仅略低于显著更昂贵的完全微调。我们还提出了一个注意力掩模方法，使其能够扩展到新的下游任务，模型可在小的增量成本下同时执行旧任务和新任务。

Mar, 2022

提及记忆：通过实体提及注意力将文本知识融入 Transformers

该论文提出了一种利用 Transformer 模型中的半参数表示以及文本语料库的 “指向记忆” 来提取多个文本来源的事实信息的方法，称为 TOME，并在多个实验中证明其在自然语言理解任务中的优异表现。

Oct, 2021

BERTnesia: 探究 BERT 中知识的捕捉和遗忘

这篇文章探讨了 BERT 模型如何从它的参数化内存中获取关系知识，并使用知识库补全任务在 BERT 的每一层中进行了测试。作者发现，中间层对于 BERT 模型中的总知识量贡献了很大的部分，同时发现 fine-tune 时，与训练数据和训练目标有关。而容量和事实密度是学习事实的关键。

Jun, 2021

以事实为专家：基于符号知识的可适应和可解释神经记忆

该论文提出了一种神经语言模型，该模型在符号可解释事实信息和亚符号神经知识之间包括显式接口，可以通过操作其符号表示更新并覆盖已有的知识，进而显著提升知识密集型问题的问答性能。

Jul, 2020

变形金刚的诞生：记忆视角

本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡，发现这些模型相对较快地学习了全局信息，但对于上下文信息中的二元组的识别则较慢，同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制，同时研究了数据分布属性的作用。

Jun, 2023