语言模型之超级马里奥:从同源模型中吸收能力如午餐一般
通过研究大型语言模型在数据组成、数学推理、代码生成和精细调整策略等方面的能力,发现不同能力展现出不同的扩展模式,较大的模型在相同数据量下表现更好;数据组成在低数据量下会改善各种能力,而在高数据量下可能导致能力冲突;而我们提出的双阶段混合精细调整策略能够解决多个能力的学习问题。
Oct, 2023
大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调,但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果,本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs,实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好,并且在运行时间上可比较。
Jan, 2024
该论文提出了一种通过学习区分微调和适应性 PLMs 的方法,使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应,并在对话完成、摘要生成等任务上展示出明显提升。
Jul, 2022
通过提取和压缩模型与其预训练基础模型之间的差异,DeltaZip 是一种 LLM 服务系统,可以高效地同时提供多个全参数微调模型,压缩因子可达 6 倍至 8 倍,并且可以提高服务吞吐量 1.5 倍至 3 倍,相比于香草 HuggingFace 服务系统,可改善 SLO 达成率。
Dec, 2023
本文首先正式描述了 delta tuning 的问题,然后全面审查了最近的 delta tuning 方法,并提出了一个统一的分类标准,将现有的 delta tuning 方法分为三组:基于加法、基于规范和基于重新参数化的方法。最后,我们对代表性方法进行了全面的实验研究,100 多个 NLP 任务的结果表明了不同方法的综合表现比较。
Mar, 2022
通过提出一种新的微调方法,我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA,该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升,并为机器翻译领域的新的训练范式奠定了基础。
Sep, 2023
本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法,这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率(WER),特别是,深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。
Jun, 2023
通过将精调模型的权重分解为预训练组件和附加的增量,我们引入了一种简单的方法 BitDelta,成功地将该增量量化为 1 位而不影响性能,从而减少 GPU 内存需求,并在多租户环境中提高生成延迟。我们通过 Llama-2 和 Mistral 模型系列的实验证实了 BitDelta,在 70B 参数的模型上展示了在所有测试环境中性能降低最小。
Feb, 2024
通过实证研究 PEFT 方法(LoRA 和 Compacter)在 CodeT5 和 CodeLlama 上的表现,评估它们相较于完全微调模型的性能、是否可用于从自然语言模型到代码的知识转移,以及它们适应学习知识到一种未见语言的能力。我们的研究目标是研究 R 语言,其具有广泛的社区,而 LLMs 的适应性和较低的计算成本使其能够在缺乏大量计算资源的情况下使用,此外,研究 R 语言为使用 LLMs 于其他语言提供了新机会,我们期望得出 PEFT 方法在 R 语言的代码 LLMs 上的能力以及改进领域。
Mar, 2024
通过将细调的大语言模型进行分解和压缩,并采用混合精度的方法,我们提出了一个保持模型性能的增量量化方法,实验证明其在各种细调的语言模型中表现出与完整模型相当的性能,在低秩和低比特方法上也表现出明显优势,并且与其他基础语言模型兼容。
Jun, 2024