遗忘学习前：在大型语言模型中利用参数算术进行知识更新

Nov, 2023

遗忘学习前：在大型语言模型中利用参数算术进行知识更新

Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models

Shiwen Ni, Dingwei Chen, Chengming Li, Xiping Hu, Ruifeng Xu...

TL;DR通过参数算术实现旧知识遗忘和新知识学习的新的精调范式 F-Learning 在两个公开数据集上的实验结果表明，该方法明显改善了完全精调和 LoRA 精调的知识更新性能，通过减去 LoRA 参数来忘记旧知识即可达到与完全精调相似的效果，有时甚至更好。

Abstract

Recently large language models (LLMs) have demonstrated their amazing text understanding and generation capabilities. However, even stronger LLMs may still learn incorrect knowledge from the training corpus, as well as some knowledge that is outdated over time. Direct secondary fine-tu

large language models knowledge updating f-learning parametric arithmetic lora fine-tuning

发现论文，激发创造

大型语言模型微调遗忘的缩放律

对细调预训练大型语言模型在下游任务中的忘记问题进行研究和量化，发现参数高效的细调策略仍然存在灾难性的忘记问题，特别是细调带有 Low-Rank Adapters（LoRA）的语言模型在性能和遗忘量之间存在强烈的线性关系，研究还给出了精确的缩放规律，显示遗忘量随着细调参数数量和更新步数呈现移位幂律的增长，同时考察了遗忘对知识、推理和 Llama 2 7B 聊天机器人中的安全保障的影响，研究表明无法通过提前停止或调整细调参数数量来避免遗忘问题，这为未来评估和开发减轻遗忘问题的细调方案开辟了重要的安全关键方向。

Jan, 2024

参数高效调整中的分析与降低灾难性遗忘

在研究中我们发现，当大型语言模型在复杂多样的特定领域下任务中不断进行微调时，对历史任务的推理性能会显著降低，这就是所谓的灾难性遗忘问题。本文通过模态连接性的透镜，调查了连续 LLM 微调场景中不同极小值之间的几何连接，发现它可以在可塑性和稳定性之间取得平衡。基于这些发现，我们提出了一种称为 Interpolation-based LoRA（I-LoRA）的简单而有效的方法，它基于 LoRA 参数插值构建了双记忆经验回放框架。在八个特定领域的连续学习基准测试上的广泛实验和分析表明，I-LoRA 始终比先前的最先进方法取得显著提升，性能提高了高达 11%，为大型语言模型连续学习问题提供了强大的基准和研究启示。

Feb, 2024

对于每个 (文本序列) 的独立性：改进大型语言模型中的记忆数据遗忘

通过新的度量衡、对抗攻击以及基于梯度上升和任务算术的两种新的遗忘方法，本研究提供了关于 LLMs 隐私保护和遗忘的新视角，并在大量 NLP 任务上进行了全面的性能评估。

May, 2024

回忆和学习：用更少的忘却对深度预训练语言模型进行微调

本论文提出了一种召回和学习机制，它采用了多任务学习的思想，联合学习预训练任务和下游任务，通过先简单地回忆预训练任务的知识，然后逐渐关注下游任务的学习，以实现减少忘记的微调。实验表明，该方法在 GLUE 基准上实现了最新的性能，并为 NLP 社区提供了开源的 RecAdam 优化器。

Apr, 2020

HFT: 大型语言模型的半微调

通过定期重置部分参数，半精调可以恢复一些原始知识，并且在大规模语言模型中减轻了遗忘问题，同时在一系列下游基准测试中取得了最佳性能。

Apr, 2024

大型语言模型在连续微调中的灾难性遗忘的实证研究

大型语言模型在不断微调的过程中存在灾难性遗忘现象，尤其随着规模的增加，遗忘的严重程度也加剧，然而通过单独解码器模型 BLOOMZ 与编码器 - 解码器模型 mT0 的比较，发现 BLOOMZ 遗忘较少且保留更多知识，还观察到语言模型能够在不断微调中缓解语言偏见，同时通用指令微调有助于减轻大型语言模型在进一步微调过程中的遗忘现象。

Aug, 2023

通过指令向量进行大规模语言模型精调的可解释性灾难性遗忘

通过考察模型对知识理解和指令跟踪的影响，本文揭示了大语言模型在微调过程中遗忘的内在机制，并以指令向量（IV）框架为基础，提出了 IV 引导训练的方法，以缓解灾难性遗忘。实证测试表明这种新方法的有效性，支持 IV 与遗忘之间的关系。

Jun, 2024

预训练模型中逐步低秩更新中遗忘的实证分析

本文研究了使用低秩适应（LoRA）将预训练模型与现有权重进行合并的设置，并探讨了 LoRA 秩对预训练任务和后续任务的遗忘、可塑性的重要影响，发现视觉变压器在这种方式下表现出一种 “上下文” 遗忘的行为，这是之前的连续学习研究中尚未观察到的现象。

May, 2024

神经机器翻译的连续学习在低遗忘风险区域内进行

本篇论文提出了一种基于局部特征训练的两阶段方法，能够实现大规模预训练神经机器翻译模型的连续学习，以适应新任务，采用这种方法能够在不访问以前的训练数据或引入模型分离的情况下解决之前方法的不足。

Nov, 2022

STAR：基于动态主动学习的约束式纵横比用于大型语言模型的高效微调

通过结合基于不确定性的主动学习和 LoRA，本论文提出了一种新的方法，动态度量不确定性缺口且在 LoRA 训练中引入正则化方法，这种方法在三个复杂推理任务上优于现有的基线模型。

Mar, 2024