精细调整的语言模型是持续学习者

May, 2022

精细调整的语言模型是持续学习者

Fine-tuned Language Models are Continual Learners

Thomas Scialom, Tuhin Chakrabarty, Smaranda Muresan

TL;DR通过自我监督预训练不断学习的大型语言模型，可以在多个数据集上持续学习并保持先前任务的良好性能，同时展示新的组合方式。

Abstract

Recent work on large language models relies on the intuition that most natural language processing tasks can be described via natural language instructions. Language models trained on these instructions show stro

large language models natural language processing continual learning self-supervision compositionality

发现论文，激发创造

大型语言模型的持续学习：一项调研

该论文调研了关于大型语言模型（LLMs）的持续学习方面的最新工作，提出了一种新颖的多阶段分类方案，涉及持续预训练、指令调整和对齐；对 LLMs 的持续学习与更简单的小模型的适应方法以及其他增强策略进行对比；同时，在讨论基准和评估的基础上，提出了几个挑战和未来工作方向。

Feb, 2024

大规模语言模型的持续学习：一项综合调研

对大型语言模型在持续学习、预训练、微调以及评估协议方面进行综述.

Apr, 2024

基于基石语言模型的持续学习的最新进展：综述

最近，基础语言模型（LMs）在自然语言处理（NLP）和计算机视觉（CV）领域取得了重要的成就。然而，由于灾难性遗忘的原因，它们仍然无法模拟类似人类的连续学习。为了解决这个问题，已经开发了各种基于连续学习（CL）的方法来改进 LMs，并使其能够适应新任务而不会遗忘以前的知识。然而，目前对现有方法的系统分类和性能比较仍然缺乏，这是我们调查的空白。我们对基础语言模型中应用的基于 CL 方法的现有文献进行了全面回顾、总结和分类，如预训练语言模型（PLMs）、大型语言模型（LLMs）和视觉语言模型（VLMs）。我们将这些研究分为离线 CL 和在线 CL，其中包括传统方法、基于参数效率的方法、基于指令调优的方法和连续预训练方法。离线 CL 包括领域增量学习、任务增量学习和类增量学习，而在线 CL 又分为困难任务边界和模糊任务边界设置。此外，我们概述了 CL 研究中使用的典型数据集和度量标准，并详细分析了 LMs-based 连续学习的挑战和未来工作。

May, 2024

语言模型的持续训练用于少样本学习

本文提出了连续后训练（CPT）的问题，建议使用一系列未标记的领域语料库不断扩展语言模型的知识，以在领域内改进几次短时间的任务学习的效果，并成功地验证了其有效性。

Oct, 2022

迈向稳健高效的持续语言学习

本文提出了一种针对任务序列的基准测试，旨在从持续学习和迁移学习的角度探讨如何快速适应新任务和模型微调策略。同时，提出了一种简单而有效的学习器，通过选择性策略初始化新模型并从过去的任务检查点中获得最大利用信息的能力。

Jul, 2023

大型语言模型中的连续预训练探索：洞见与影响

这篇论文研究了大型语言模型（LLMs）中不断学习（CL）领域的发展，重点是开发高效和可持续经验的训练策略。通过不断适应域预训练，我们的研究评估了 LLMs 在不同数据环境中的适应性和能力，并引入了一个新的基准来衡量这种适应能力，揭示了关于知识转移和模型大小的若干关键见解。

Feb, 2024

持续学习者是增量模型泛化器

本文的研究重点是探讨 Continual Learning 模型作为预训练器的效果，研究表明，CL 模型可以学习到改进的任务 - 一般特征，在保留丰富任务 - 一般特征的同时，运用 GLobal Attention Discretization fine-tuning 可获得竞争力的性能表现。

Jun, 2023

终身预训练：持续适应新出现的语料库的语言模型

本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练，并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战，结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这些算法还可以提高知识转移能力，使模型在最新数据上实现更好的下游性能，并在由于时间而存在训练和评估之间的分布差异时，提高时态的泛化能力。

Oct, 2021

具有广义持续学习的可扩展语言模型

该研究引入了可扩展语言模型（SLM）来解决现有方法在实际应用中遇到的限制和挑战，通过联合自适应重参数化（JARe）和动态任务相关知识检索（DTKR），实现了语言模型的自适应调节，从而在广泛的应用领域中实现了有效的持续学习。

Apr, 2024

CALM: 连续适应学习的语言建模

该研究论文提出了 CALM 技术，通过对大型语言表示模型进行连续自适应学习，使其跨领域保留知识，并在生物医学和临床领域的实验中展示了任务特定模型与 CALM 模型性能差距的减小。

Apr, 2020