语言模型完善中被遗忘的示例预测

Feb, 2024

语言模型完善中被遗忘的示例预测

What Will My Model Forget? Forecasting Forgotten Examples in Language Model Refinement

Xisen Jin, Xiang Ren

TL;DR语言模型在实际应用中存在错误。为了改进回放过程和可解释性，我们尝试预测由于模型更新而被遗忘的上游示例。通过训练预测模型，我们提出了一种部分可解释的预测模型，基于预训练示例的前 softmax 对数几率分数的变化与在线学习示例的相似性，其在 BART 模型上表现良好但在 T5 模型上失败。我们进一步展示了基于示例表示内积的黑盒分类器，在一系列设置中取得了更好的预测性能。最后，通过回放被预测将被遗忘的示例，我们减少了上游预训练示例的遗忘，证明了预测示例遗忘的实际应用效用。

Abstract

language models deployed in the wild make errors. However, simply updating the model with the corrected error instances causes catastrophic forgetting -- the updated model makes errors on instances learned during

language models catastrophic forgetting replay process forecasting models upstream pre-training

发现论文，激发创造

深入剖析语言模型微调中的遗忘现象：基于示例关联的统计分析

本文通过对语言模型进行经验分析，发现忘记常常可以通过上游示例和新学习任务的简单乘法关系来近似，并揭示了特定子集示例的复杂忘记模式，在基于经验关联的矩阵补全方法中预测了在学习新任务时发生在上游示例上的遗忘，优于依赖可训练语言模型的先前方法。

Jun, 2024

模型更新过程中的灾难性遗忘

本文论述了如何在更新神经网络模型时减少深度学习模型遗忘前期知识的问题，从而减少新模型的训练成本，并介绍混合少量历史数据的数据彩排和弹性加权差异等方法以提高整体准确度。

Jun, 2023

使用可遗忘例子提高对伪相关性的鲁棒性

本文提出使用遗忘例子的方法来筛选掉数据集中存在的虚假相关性并找出少数反例，然后通过将模型分别在全部数据和少数数据上微调来提高模型的越域泛化能力。

Nov, 2019

回忆和学习：用更少的忘却对深度预训练语言模型进行微调

本论文提出了一种召回和学习机制，它采用了多任务学习的思想，联合学习预训练任务和下游任务，通过先简单地回忆预训练任务的知识，然后逐渐关注下游任务的学习，以实现减少忘记的微调。实验表明，该方法在 GLUE 基准上实现了最新的性能，并为 NLP 社区提供了开源的 RecAdam 优化器。

Apr, 2020

对话响应模型预训练微调中的遗忘问题分析

本研究探讨预训练 - 微调框架中的微调阶段如何改变预训练神经语言生成模型的行为，发现标准微调后模型遗忘了某些重要的语言生成技巧，提出了一种直观的微调策略 “混合回顾”，能够缓解模型遗忘现象，最终讨论了对话模型的有趣行为及其含义。

Oct, 2019

连续学习中的遗忘顺序：先学的例子最后遗忘

通过分析发现，catastrophic forgetting 与学习速度存在强烈相关性，我们提出了一种名为 Goldilocks 的回放缓冲采样方法，该方法通过筛选中间速度学习的示例来改进现有的持续学习算法，从而在几个图像分类任务中实现了最先进的性能。

Jun, 2024

深度神经网络学习中示例遗忘的实证研究

研究神经网络在单分类任务训练中的学习动态，发现在缺乏明显分布偏移的数据情况下，存在相关遗忘现象，某些样例更容易被遗忘，而基于遗忘动态可以从训练数据集中省略部分例子却仍能保持最佳泛化性能。

Dec, 2018

预训练在终身学习中的作用的实证调查

通过调查现有的方法及其在预训练模型上的表现，我们观察到 Generic Pre-training 方法隐含地减轻了多任务学习中遗忘现象的影响，因为预训练权重看起来通过导致更宽的极小值来缓解遗忘现象，基于这个发现，我们建议联合当前任务的损失和损失基底锐度的优化方法，以在顺序微调期间显式地鼓励更宽的基底，在多种设置中实现与最新技术的性能相当的顺序连续学习，而无需保留随任务数缩放的内存。

Dec, 2021

对齐的大型语言模型连续预训练中的遗忘现象研究

连续预训练中灾难性遗忘现象对于已经经过微调的大规模语言模型的影响及重复问题的挑战。

Jan, 2024

微调强化学习模型其实是一种遗忘缓解问题

通过对 NetHack 和 Montezuma's Revenge 环境的详细实证分析，我们表明标准的知识保留技术缓解了这个问题，从而使我们能够充分利用预训练的能力，特别是在 NetHack 中，在人类僧侣场景中我们实现了新的神经模型的最新成绩，从 5K 分提高到超过 10K 分。

Feb, 2024