PreCog: 探索预训练语言模型中记忆和性能之间的关系

May, 2023

PreCog: 探索预训练语言模型中记忆和性能之间的关系

PreCog: Exploring the Relation between Memorization and Performance in Pre-trained Language Models

Leonardo Ranaldi, Elena Sofia Ruzzetti, Fabio Massimo Zanzotto

TL;DR本文提出了一种用于评估预训练模型记忆能力的指标PreCog，并研究了记忆能力与BERT在下游任务中表现之间的相关性。实验结果表明，高度记忆化的例子被更好地分类，表明记忆化是BERT成功的关键因素之一。

Abstract

pre-trained language models such as bert are impressive machines with the ability to memorize, possibly generalized learning examples. We present here a small, focused contribution to the analysis of the interpla

发现论文，激发创造

RoBERTa: 一个稳健优化的BERT预训练方法

本研究进行了BERT预训练的复现研究，并对其关键的超参数和训练数据大小的影响进行了测量，发现BERT被显著低估，并且可以超过其之后发布的每个模型的表现，提高了以前被忽视的设计选择的重要性，并引发了对最近报道的改进的疑问。

Jul, 2019

回忆和学习：用更少的忘却对深度预训练语言模型进行微调

本论文提出了一种召回和学习机制，它采用了多任务学习的思想，联合学习预训练任务和下游任务，通过先简单地回忆预训练任务的知识，然后逐渐关注下游任务的学习，以实现减少忘记的微调。实验表明，该方法在GLUE基准上实现了最新的性能，并为NLP社区提供了开源的RecAdam优化器。

Apr, 2020

预训练数据的成本效益选择：在社交媒体上预训练BERT的案例研究

本文讲述了如何在特定领域的BERT模型中使用社交媒体文本进行预训练，通过相似度计算筛选出有效的预训练数据，并实验验证了在推特和论坛文本上进行预训练的模型可以提高下游任务的效果。

Oct, 2020

神经语言模型记忆能力量化

这篇研究论文描述了大语言模型(LMs)如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而，该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题，因此有减轻该问题的必要，尤其随着模型的规模持续增长，需要采取积极的对策。

Feb, 2022

大型语言模型培训动态分析：防止过度拟合的记忆训练

研究了大型语言模型的训练和记忆过程，在不同设置下测量了数据集大小、学习率和模型大小对其记忆能力的影响，证明更大的语言模型更快地记忆训练数据，更容易在训练过程中避免过度拟合。同时，分析了不同词性的记忆动态，发现名词和数字是模型记忆单个训练例子的唯一标识符。这些发现有助于深入了解模型变大所带来的真正好处。

May, 2022

通过成语理解Transformer记忆召回

本文提供了第一种探测transformer LMs中记忆序列召回的方法，并分析了记忆预测是一个两步过程，其存储和检索存储在网络的早期层中，这为理解记忆召回提供了第一步，并为未来的transformer记忆研究提供了方法基础。

Oct, 2022

BERT在连续任务中能否避免遗忘？一个探究研究

该研究发现预训练语言模型BERT能够在学习新任务时不需要稀疏经验回放外就能保留以前所学的知识，通过探究其机制并采用记忆重演方法能够有效减少任务增量学习中的遗忘。

Mar, 2023

大型语言模型中的紧急和可预测记忆

通过对Pythia模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

基于大型语言模型中的文本、概率和隐藏状态的记忆洞察

通过比较存储和非存储之间的差异，我们提出了一种名为ROME的新方法，用于研究大型语言模型的记忆化能力。实验结果显示，包括词长、词性、词频、平均值和方差在内的多方面因素存在差异。

Mar, 2024

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024