记忆力强还是弱？深入探究语言模型记忆机制

May, 2023

记忆力强还是弱？深入探究语言模型记忆机制

Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism of Language Models

Boxi Cao, Qiaoyu Tang, Hongyu Lin, Xianpei Han, Jiawei Chen...

TL;DR对预训练语言模型进行了多种实验，发现预训练模型有助于保持记忆，而非预训练的神经网络具有遗忘的问题，并且知识相关性和多样性会显着影响记忆形成。这些结论有助于了解预训练模型的能力，同时也为语言模型的新学习和推断算法的设计和评估提供了启示。

Abstract

memory is one of the most essential cognitive functions serving as a repository of world knowledge and episodes of activities. In recent years, large-scale pre-trained language models have shown remarkable memorizing ability. On the contrary, vanilla neural networks without pre-trainin

memory pretrained language models catastrophic forgetting learning strategies knowledge formation

发现论文，激发创造

口罩策略对语言模型知识记忆的影响

本文的目标是建立对知识获取过程的更好理解。我们利用一系列预训练任务注入知识到模型中，并通过测量模型回答事实性问题的能力测试其知识保留能力。我们的实验表明，掩盖实体和基于逐点互信息的相关跨度的原则性掩盖方法可以更好地保留事实知识，而遮盖随机顺序的词标记会导致模型遗忘更多的事实知识。我们的发现表明，类似于执行任务的能力，通过训练执行其他任务时获取的（事实）知识也会被遗忘，该文提供了防止这种现象的方法。

Jun, 2023

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

预训练语言模型中的记忆与泛化

本研究通过研究先进的预训练语言模型在嘈杂和低资源环境下的一般化和记忆能力，发现这些模型的训练对标签噪声几乎没有影响，但并不适用于低资源任务，而基于原型网络的扩展则能提高识别低资源命名实体时的性能。

Apr, 2021

大型语言模型中的紧急和可预测记忆

通过对 Pythia 模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

神经语言模型中的反事实记忆

本文提出了一种源于心理学中人类记忆分类的对抗性记忆学习方法，进行神经语言模型的训练数据筛选，以减少其对训练数据中的敏感信息的记忆，并探究其训练样本中的对抗性记忆，从而提供一种可用于测试数据及其生成的文本来源推定的直接证据。

Dec, 2021

语言的更多空间：探究检索对语言模型的影响

利用 “理想检索” 方法研究检索增强语言模型，评估检索增强对语言模型行为的影响，观察到这些模型在权重保存方面具有更少的世界知识，在理解局部上下文和词间依赖方面表现更好，但在理解全局上下文方面表现更差。

Apr, 2024

大型语言模型中的少样本记忆识别、回忆和保留

现代大型语言模型的训练中，即使只看几次，一个模型也可以记住它们，但随着新的例子不断训练，模型的这些记忆会逐渐被覆盖。同时，这些模型在识别、回忆和保留方面的表现提高得非常快。

Mar, 2023

大型语言模型在预训练期间如何获取事实知识？

通过研究大型语言模型在预训练过程中获得事实知识的机制，发现预训练数据量的增加并不显著提高模型获得和保持事实知识的能力，训练步骤与记忆遗忘和事实知识的泛化之间存在幂律关系，重复训练数据会导致遗忘加速，而使用更大的批量大小有助于提高模型的遗忘鲁棒性。事实知识在预训练过程中的获取是通过逐步增加每一步预训练数据中出现的事实知识的概率，但此提升会受到后续遗忘的影响。根据这一解释，我们对大型语言模型的表现提供了合理的解释，如对尾部知识的糟糕表现以及去重预训练语料库的好处。

Jun, 2024

BERTnesia: 探究 BERT 中知识的捕捉和遗忘

这篇文章探讨了 BERT 模型如何从它的参数化内存中获取关系知识，并使用知识库补全任务在 BERT 的每一层中进行了测试。作者发现，中间层对于 BERT 模型中的总知识量贡献了很大的部分，同时发现 fine-tune 时，与训练数据和训练目标有关。而容量和事实密度是学习事实的关键。

Jun, 2021

神经语言模型中近似短期记忆的特征化

该研究考察了语言模型在处理文本时是否能够检索先前出现的确切单词，并发现 transformers 模型可以从第一次出现的名词清单中提取词语的身份和排序，而 LSTM 模型则更加侧重于先前单词的语义要点，以及其与列表中其他单词的关系。

Oct, 2022