预训练语言模型中的记忆与泛化

ACLApr, 2021

Memorisation versus Generalisation in Pre-trained Language Models

Michael Tänzer, Sebastian Ruder, Marek Rei

TL;DR本研究通过研究先进的预训练语言模型在嘈杂和低资源环境下的一般化和记忆能力，发现这些模型的训练对标签噪声几乎没有影响，但并不适用于低资源任务，而基于原型网络的扩展则能提高识别低资源命名实体时的性能。

Abstract

State-of-the-art pre-trained language models have been shown to memorise facts and perform well with limited amounts of training data. To gain a better understanding of how these models learn, we study their generalisation and memorisation capabilities in noisy and low-resource scenari

pre-trained language models generalization label noise low-resource learning prototypical networks

发现论文，激发创造

小型语言模型是通过记忆还是泛化来回答上下文问题的？

使用语言模型进行问题回答的过程中，我们提出了一种基于输入和标签之间的语义相似性的方法，用于区分模型对评估样本的直接记忆和通过一些泛化方法预测标签的能力。通过应用该方法，我们在评估数据集的无法记忆子集中观察到了显著的性能改善。

Nov, 2023

大型图像分类器记忆了什么？

现代神经网络的成功引发了对记忆和泛化之间关系的研究：过参数化的模型能够很好地进行泛化，尽管它们能够完美地拟合（记忆）完全随机的标签。本文通过对图像分类基准上 ResNet 的记忆度量进行实证计算，全面分析了神经模型大小对记忆能力的影响，结果发现不同模型大小的训练样本表现出意想不到的多样化记忆轨迹：较大模型下大多数样本减少了记忆，而部分样本呈现帽状或者递增型记忆。此外，我们发现知识蒸馏作为一种有效且流行的模型压缩技术，往往抑制记忆，同时提高了泛化能力，尤其是对于记录递增轨迹的示例，蒸馏技术能够有效提高泛化能力。

Oct, 2023

记忆化 VS 泛化：量化自然语言处理性能评估中的数据泄漏

利用公共数据集来评估自然语言处理（NLP）中最先进方法的有效性和普适性时，训练和测试数据集之间的重叠会导致结果被高估，为了评估这些方法在实际场景中的性能，我们发现在用于评估 NLP 任务的几个公开数据集中，存在训练数据泄漏到测试数据中的情况，对此进行研究以评估泄漏对模型记忆与泛化能力的影响。

Feb, 2021

记忆力强还是弱？深入探究语言模型记忆机制

对预训练语言模型进行了多种实验，发现预训练模型有助于保持记忆，而非预训练的神经网络具有遗忘的问题，并且知识相关性和多样性会显着影响记忆形成。这些结论有助于了解预训练模型的能力，同时也为语言模型的新学习和推断算法的设计和评估提供了启示。

May, 2023

记忆 Transformer

本文介绍了一种使用内部储存器实现直接读取并记忆新数据的语言模型，在多个基准测试和任务中展示了近似 kNN 查找技术，着重测试了代码和数学等领域，并证明了随着储存器大小的增加，性能将稳步提高。

Mar, 2022

记忆地图：在神经机器翻译中绘制记忆 - 推广连续体

通过使用反事实记忆度量标准，建立了一个资源，将 500 万条神经机器翻译数据点放置在一个记忆 - 泛化地图上，并展示了数据点的表面特征和模型的训练信号如何预测神经机器翻译中的记忆，以及该地图的子集对神经机器翻译系统性能的影响。

Nov, 2023

实体和关系抽取中的情境化和泛化

本文主要研究了最新的自然语言处理技术中，神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现，预训练的语言模型对发现未曾见过的命名实体表现良好，但对于未曾见过的关系则有待加强，因此模型的理解能力仍存在提升空间。

Jun, 2022

深度网络内存化探究

本文研究深度学习中记忆化的作用，探讨了容量，泛化，对抗鲁棒性的联系。作者的实验表明，深度神经网络在优化噪声数据和真实数据时存在数量上的差异，但经过适当的正则化调整（如 dropout），我们可以降低其在噪声数据集上的训练性能，同时不影响在真实数据上的泛化能力。研究结果表明，数据集本身在决定记忆化程度时具有重要作用，而基于梯度优化方法的深度网络的泛化性能不太可能由数据集独立的有效容量来解释。

Jun, 2017

大型语言模型培训动态分析：防止过度拟合的记忆训练

研究了大型语言模型的训练和记忆过程，在不同设置下测量了数据集大小、学习率和模型大小对其记忆能力的影响，证明更大的语言模型更快地记忆训练数据，更容易在训练过程中避免过度拟合。同时，分析了不同词性的记忆动态，发现名词和数字是模型记忆单个训练例子的唯一标识符。这些发现有助于深入了解模型变大所带来的真正好处。

May, 2022

大型语言模型中的少样本记忆识别、回忆和保留

现代大型语言模型的训练中，即使只看几次，一个模型也可以记住它们，但随着新的例子不断训练，模型的这些记忆会逐渐被覆盖。同时，这些模型在识别、回忆和保留方面的表现提高得非常快。

Mar, 2023