DAPT：用于大型语言模型参数高效持续学习的双重注意力框架

Jan, 2024

DAPT：用于大型语言模型参数高效持续学习的双重注意力框架

DAPT: A Dual Attention Framework for Parameter-Efficient Continual Learning of Large Language Models

Weixiang Zhao, Shilong Wang, Yulin Hu, Yanyan Zhao, Bing Qin...

TL;DR提出一种新颖的双注意力框架（DAPT），通过双注意力学习和选择模块，对鲁棒性防止灾难性遗忘和促进知识迁移的能力进行了优化。对两个持续学习基准进行了大量实验，证明了DAPT相比于现有的方法在抵抗灾难性遗忘和促进知识迁移方面的优越性。此外，在不同的模型大小（从770M到11B）和未见任务方面，DAPT也表现出优越性。

Abstract

The continual learning (CL) ability is vital for deploying large language models (LLMs) in the dynamic world. Based on parameter-efficient tuning (PET), existing methods devise the learning module and the selecti

发现论文，激发创造

ConPET: 大型语言模型的连续参数高效调整

Continual Parameter-Efficient Tuning (ConPET), a generalizable paradigm for continual task adaptation of large language models (LLMs) with task-number-independent training complexity, reduces tuning costs and alleviates over-fitting and forgetting issue through static and dynamic ConPET versions.

Sep, 2023

从静态到动态: 大型语言模型的持续学习框架

DynaMind是一种新颖的连续学习框架，旨在解决大语言模型（LLMs）的训练困难、知识融入问题，并提高输出准确性。通过引入记忆机制和模块化操作符，DynaMind能够有效克服这些挑战。

Oct, 2023

大型多模态模型的持续指令调优

本文研究了指令调整在持续学习大型多模型 (LMMs) 中的应用，并发现持续调整过程中仍然存在灾难性遗忘现象，但多任务联合指令调整可以改善遗忘问题，此外，基于任务相似性的正则化和模型扩展方法在持续学习中表现良好。

Nov, 2023

超越反遗忘：利用正向迁移进行多模式连续指导调整

Multimodal Continual Instruction Tuning (MCIT) enables Multimodal Large Language Models (MLLMs) to meet continuously emerging requirements without expensive retraining by addressing the issues of catastrophic forgetting and negative forward transfer using the Fwd-Prompt method.

Jan, 2024

大型语言模型中的连续预训练探索：洞见与影响

这篇论文研究了大型语言模型（LLMs）中不断学习（CL）领域的发展，重点是开发高效和可持续经验的训练策略。通过不断适应域预训练，我们的研究评估了LLMs在不同数据环境中的适应性和能力，并引入了一个新的基准来衡量这种适应能力，揭示了关于知识转移和模型大小的若干关键见解。

Feb, 2024

参数高效调整中的分析与降低灾难性遗忘

在研究中我们发现，当大型语言模型在复杂多样的特定领域下任务中不断进行微调时，对历史任务的推理性能会显著降低，这就是所谓的灾难性遗忘问题。本文通过模态连接性的透镜，调查了连续LLM微调场景中不同极小值之间的几何连接，发现它可以在可塑性和稳定性之间取得平衡。基于这些发现，我们提出了一种称为Interpolation-based LoRA（I-LoRA）的简单而有效的方法，它基于LoRA参数插值构建了双记忆经验回放框架。在八个特定领域的连续学习基准测试上的广泛实验和分析表明，I-LoRA始终比先前的最先进方法取得显著提升，性能提高了高达11%，为大型语言模型连续学习问题提供了强大的基准和研究启示。

Feb, 2024

选择与概括：选择性双教师知识迁移用于视觉语言模型的持续学习

大规模视觉语言模型（VLMs）展示了对未见域数据具有强大的零样本泛化能力。然而，适应预训练的VLMs并执行一系列下游任务时，它们容易忘记以前学到的知识并降低其零样本分类能力。为解决这个问题，我们提出了一种独特的选择性双教师知识迁移框架，利用最新的精细调整和原始的预训练VLMs作为双教师来保留以前学到的知识和零样本能力。通过仅访问未标记的参考数据集，我们提出的框架通过测量双教师VLMs的特征差异来执行选择性知识蒸馏机制。因此，我们的选择性双教师知识蒸馏将缓解以前学到的知识的灾难性遗忘，同时保留预训练VLMs的零样本能力。通过对基准数据集进行大量实验，我们证明了我们的提出的框架对于防止灾难性遗忘和零样本退化的最新持续学习方法是有利的。

Mar, 2024

大规模语言模型的持续学习：一项综合调研

对大型语言模型在持续学习、预训练、微调以及评估协议方面进行综述.

Apr, 2024

SwitchCIT：用于大型语言模型的持续指令调整的切换

该研究讨论了在大规模语言模型中出现的连续指导调整中的灾难性遗忘问题，并通过一种切换机制来解决此问题，使计算能够路由到参数高效调整的模型，该方法通过实验表明其在不同自然语言生成任务的连续指导调整中具有显著有效性。

Jul, 2024

SEEKR：基于选择性注意力的知识保留方法用于大语言模型的持续学习

该研究旨在解决持续学习中大语言模型的知识遗忘问题，现有方法未能充分利用之前任务中的知识。文章提出了一种选择性注意力引导的知识保留方法SEEKR，通过关注选定的注意力头实现数据高效重放式持续学习，实验结果表明SEEKR在性能和效率上优于现有方法，且在重放数据量大幅减少的情况下仍能保持相当甚至更好的性能。

Nov, 2024