本研究进行了BERT预训练的复现研究,并对其关键的超参数和训练数据大小的影响进行了测量,发现BERT被显著低估,并且可以超过其之后发布的每个模型的表现,提高了以前被忽视的设计选择的重要性,并引发了对最近报道的改进的疑问。
Jul, 2019
本论文提出了一种召回和学习机制,它采用了多任务学习的思想,联合学习预训练任务和下游任务,通过先简单地回忆预训练任务的知识,然后逐渐关注下游任务的学习,以实现减少忘记的微调。实验表明,该方法在GLUE基准上实现了最新的性能,并为NLP社区提供了开源的RecAdam优化器。
Apr, 2020
本文讲述了如何在特定领域的BERT模型中使用社交媒体文本进行预训练,通过相似度计算筛选出有效的预训练数据,并实验验证了在推特和论坛文本上进行预训练的模型可以提高下游任务的效果。
Oct, 2020
这篇研究论文描述了大语言模型(LMs)如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而,该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题,因此有减轻该问题的必要,尤其随着模型的规模持续增长,需要采取积极的对策。
Feb, 2022
研究了大型语言模型的训练和记忆过程,在不同设置下测量了数据集大小、学习率和模型大小对其记忆能力的影响,证明更大的语言模型更快地记忆训练数据,更容易在训练过程中避免过度拟合。同时,分析了不同词性的记忆动态,发现名词和数字是模型记忆单个训练例子的唯一标识符。这些发现有助于深入了解模型变大所带来的真正好处。
May, 2022
本文提供了第一种探测transformer LMs中记忆序列召回的方法,并分析了记忆预测是一个两步过程,其存储和检索存储在网络的早期层中,这为理解记忆召回提供了第一步,并为未来的transformer记忆研究提供了方法基础。
Oct, 2022
该研究发现预训练语言模型BERT能够在学习新任务时不需要稀疏经验回放外就能保留以前所学的知识,通过探究其机制并采用记忆重演方法能够有效减少任务增量学习中的遗忘。
Mar, 2023
通过对Pythia模型套件的记忆行为进行度量和分析,发现中间检查点是模型记忆行为的更好预测因素,同时提供了有关模型和数据记忆得分分布的新颖发现
Apr, 2023
通过比较存储和非存储之间的差异,我们提出了一种名为ROME的新方法,用于研究大型语言模型的记忆化能力。实验结果显示,包括词长、词性、词频、平均值和方差在内的多方面因素存在差异。
Mar, 2024
该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响,重现了重复次数对记忆序列遗忘概率的对数标度关系,并发现即使没有后续接触,经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上,这对数据隐私具有挑战性。为此,我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。
Jun, 2024