L3 集成：基础语言模型的终身学习方法

Nov, 2023

L3 集成：基础语言模型的终身学习方法

L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational Language Models

Aidin Shiri, Kaushik Roy, Amit Sheth, Manas Gaur

TL;DR提出了一种基于生命周期学习的方法，通过从未见过的数据中提取有意义的表示，构建结构化知识库，逐步提高任务性能，实验结果表明该方法相比于精调的基础语言模型可提高 4%~36% 的模型准确度，并在 STS 基准任务上表现出与 T5 模型相比具有竞争力或超越性能的优势（准确度提高 15.4%）。

Abstract

fine-tuning pre-trained foundational language models (FLM) for specific tasks is often impractical, especially for resource-constrained devices. This necessitates the development of a lifelong learning (L3) frame

fine-tuning lifelong learning natural language processing knowledge base ensemble method

发现论文，激发创造

简约即佳，规模不足为奇：面向基础语言模型的集成

基于大型 FLMs 的小型 FLMs 的潜力是基于同一基础的，通过集成技术可以影响 FLMs 的关注点，揭示不同 FLMs 的协作与合作的能力，我们发现深度集成的 BERT 通过使用心理健康等敏感领域的数据，相对于其大型版本 BERTlarge，具有倍数倍的性能优势。

Aug, 2023

利用分布专家进行终身语言预训练

本文提出了 Lifelong-MoE，一种基于扩展的 MoE（Expansive Mixture-of-Experts）架构的 Lifelong Learning 方法，其具有更好的 few-shot 性能，可以对大规模语料进行更好的预训练，适应不同的下游任务。

May, 2023

CatMemo 通过数据融合在金融应用中对大型语言模型进行微调

本文研究了大型语言模型在金融分析中的应用，通过 IJCAI-2024 FinLLM 挑战模拟了金融分类、金融文本摘要和个股交易等关键任务，并采用 Llama3-8B 和 Mistral-7B 作为基本模型，通过 Parameter Efficient Fine-Tuning（PEFT）和 Low-Rank Adaptation（LoRA）方法进行微调，将任务一和任务二的数据集进行融合，综合和全面地解决了这些多样且复杂的金融任务，展示了大型语言模型在提高准确性和决策能力方面的潜力。

Jul, 2024

受限内存下高效元生存学习

本文提出一个高效的元学习框架，将终身学习的三个普遍原则相结合，以有效地训练同时避免灾难性遗忘和负迁移，并达到与多任务学习相当的性能。

Oct, 2020

神经主题建模与持续终身学习

本文提出了一种用于神经主题建模的终身学习框架，可以连续处理文档集流并通过从多个来源的知识转移积累主题，以更好地处理稀疏数据，并通过新的选择性数据增强、共同训练和主题正则化方法来最小化灾难性遗忘，作者通过建模三个稀疏的文档集任务进行证明其提出的终身神经主题建模（LNTM）框架具有改良的表现。

Jun, 2020

参数高效的鲁棒性全语种持续学习微调

研究 Continual Multilingual Learning 的问题，提出使用 parameter-efficient finetuning 更新 multilingual model 来减少语言特异性的遗忘，同时提高跨语言转移能力，通过 LAFT-URIEL pipeline 来改善支持语言的性能

Sep, 2022

在最边缘上的 LLM 联邦微调：好，坏，丑陋

通过硬件为中心的方法，本研究探讨了如何将大型语言模型 (LLMs) 应用于现代边缘计算系统，并使用联邦学习 (FL) 对 FLAN-T5 模型家族进行微调，以进行文本摘要任务。通过与数据中心 GPU 的比较，我们评估了边缘计算系统的当前能力以及它们在 LLM FL 工作负载方面的潜力，并展示了在边缘端实现更大计算效率的潜力与下一步的发展方向。

Oct, 2023

FreeLM：无微调语言模型

本文提出了一种新颖的无微调的自然语言处理模型 Fine-tuning-free strategy，通过使用语言和强任务感知的 teacher signal 进行交互式训练，提高了该模型在多项任务中的泛化性和鲁棒性，并且相对于大型模型如 GPT-3 和 InstructGPT 而言，该模型较小，只有 0.3B 的参数。

May, 2023

面向大型语言模型的终身学习：一项调查

大语言模型（LLMs）中的终身学习可以不断地适应和学习新知识，并通过持续预训练、持续微调和模型扩展等技术来提高模型的适应性和性能。

Jun, 2024

终身预训练：持续适应新出现的语料库的语言模型

本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练，并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战，结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这些算法还可以提高知识转移能力，使模型在最新数据上实现更好的下游性能，并在由于时间而存在训练和评估之间的分布差异时，提高时态的泛化能力。

Oct, 2021