语言模型之超级马里奥：从同源模型中吸收能力如午餐一般

Nov, 2023

语言模型之超级马里奥：从同源模型中吸收能力如午餐一般

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li

TL;DR我们揭示了语言模型（LMs）可以通过吸收同类模型的参数而无需重新训练或使用图形处理器来获得新的能力。我们引入了一种名为 DARE（Drop And Rescale）的新操作，将绝大多数增量参数直接设为零，并可以将多个特定任务的 LM 合并为一个具有多样能力的 LM。

Abstract

In this paper, we uncover that language models (LMs), either encoder- or decoder-based, can obtain new capabilities by assimilating the parameters of homologous models without retraining or GPUs. Typically, new abilities of LMs can be imparted by →

language models supervised fine-tuning dare delta parameters merging task-specific lms

发现论文，激发创造

大型语言模型的能力受监督微调数据组成的影响

通过研究大型语言模型在数据组成、数学推理、代码生成和精细调整策略等方面的能力，发现不同能力展现出不同的扩展模式，较大的模型在相同数据量下表现更好；数据组成在低数据量下会改善各种能力，而在高数据量下可能导致能力冲突；而我们提出的双阶段混合精细调整策略能够解决多个能力的学习问题。

Oct, 2023

大规模语言模型的稀疏微调扩展

大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调，但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果，本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs，实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好，并且在运行时间上可比较。

Jan, 2024

元学习差异性：为大型语言模型准备高效迁移

该论文提出了一种通过学习区分微调和适应性 PLMs 的方法，使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应，并在对话完成、摘要生成等任务上展示出明显提升。

Jul, 2022

DeltaZip：通过增量压缩提供多租户语言模型服务

通过提取和压缩模型与其预训练基础模型之间的差异，DeltaZip 是一种 LLM 服务系统，可以高效地同时提供多个全参数微调模型，压缩因子可达 6 倍至 8 倍，并且可以提高服务吞吐量 1.5 倍至 3 倍，相比于香草 HuggingFace 服务系统，可改善 SLO 达成率。

Dec, 2023

Delta 调参：针对预训练语言模型的参数高效方法的全面研究

本文首先正式描述了 delta tuning 的问题，然后全面审查了最近的 delta tuning 方法，并提出了一个统一的分类标准，将现有的 delta tuning 方法分为三组：基于加法、基于规范和基于重新参数化的方法。最后，我们对代表性方法进行了全面的实验研究，100 多个 NLP 任务的结果表明了不同方法的综合表现比较。

Mar, 2022

机器翻译的范式转变：提升大型语言模型的翻译性能

通过提出一种新的微调方法，我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA，该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升，并为机器翻译领域的新的训练范式奠定了基础。

Sep, 2023

语音识别中零 - shot 领域调适的大型语言模型启发

本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法，这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率（WER），特别是，深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。

Jun, 2023

BitDelta：你的微调可能只相当于 1 个比特

通过将精调模型的权重分解为预训练组件和附加的增量，我们引入了一种简单的方法 BitDelta，成功地将该增量量化为 1 位而不影响性能，从而减少 GPU 内存需求，并在多租户环境中提高生成延迟。我们通过 Llama-2 和 Mistral 模型系列的实验证实了 BitDelta，在 70B 参数的模型上展示了在所有测试环境中性能降低最小。

Feb, 2024

代码大语言模型参数高效方法的实证研究及其向 R 的知识转移

通过实证研究 PEFT 方法（LoRA 和 Compacter）在 CodeT5 和 CodeLlama 上的表现，评估它们相较于完全微调模型的性能、是否可用于从自然语言模型到代码的知识转移，以及它们适应学习知识到一种未见语言的能力。我们的研究目标是研究 R 语言，其具有广泛的社区，而 LLMs 的适应性和较低的计算成本使其能够在缺乏大量计算资源的情况下使用，此外，研究 R 语言为使用 LLMs 于其他语言提供了新机会，我们期望得出 PEFT 方法在 R 语言的代码 LLMs 上的能力以及改进领域。

Mar, 2024

Delta-CoMe: 大型语言模型的无需训练的混合精度增量压缩

通过将细调的大语言模型进行分解和压缩，并采用混合精度的方法，我们提出了一个保持模型性能的增量量化方法，实验证明其在各种细调的语言模型中表现出与完整模型相当的性能，在低秩和低比特方法上也表现出明显优势，并且与其他基础语言模型兼容。

Jun, 2024