BitDelta：你的微调可能只相当于 1 个比特

Feb, 2024

BitDelta：你的微调可能只相当于 1 个比特

BitDelta: Your Fine-Tune May Only Be Worth One Bit

James Liu, Guangxuan Xiao, Kai Li, Jason D. Lee, Song Han...

TL;DR通过将精调模型的权重分解为预训练组件和附加的增量，我们引入了一种简单的方法 BitDelta，成功地将该增量量化为 1 位而不影响性能，从而减少 GPU 内存需求，并在多租户环境中提高生成延迟。我们通过 Llama-2 和 Mistral 模型系列的实验证实了 BitDelta，在 70B 参数的模型上展示了在所有测试环境中性能降低最小。

Abstract

large language models (llms) are typically trained in two phases: pre-training on large internet-scale datasets, and →

large language models llms pre-training fine-tuning bitdelta

发现论文，激发创造

Delta-CoMe: 大型语言模型的无需训练的混合精度增量压缩

通过将细调的大语言模型进行分解和压缩，并采用混合精度的方法，我们提出了一个保持模型性能的增量量化方法，实验证明其在各种细调的语言模型中表现出与完整模型相当的性能，在低秩和低比特方法上也表现出明显优势，并且与其他基础语言模型兼容。

Jun, 2024

DeltaZip：通过增量压缩提供多租户语言模型服务

通过提取和压缩模型与其预训练基础模型之间的差异，DeltaZip 是一种 LLM 服务系统，可以高效地同时提供多个全参数微调模型，压缩因子可达 6 倍至 8 倍，并且可以提高服务吞吐量 1.5 倍至 3 倍，相比于香草 HuggingFace 服务系统，可改善 SLO 达成率。

Dec, 2023

Delta 调参：针对预训练语言模型的参数高效方法的全面研究

本文首先正式描述了 delta tuning 的问题，然后全面审查了最近的 delta tuning 方法，并提出了一个统一的分类标准，将现有的 delta tuning 方法分为三组：基于加法、基于规范和基于重新参数化的方法。最后，我们对代表性方法进行了全面的实验研究，100 多个 NLP 任务的结果表明了不同方法的综合表现比较。

Mar, 2022

大规模语言模型的稀疏微调扩展

大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调，但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果，本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs，实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好，并且在运行时间上可比较。

Jan, 2024

AlphaTuning: 大规模预训练语言模型的量化感知参数高效适应

本研究旨在将后训练量化与仅对定向任务的一些部分进行量化的精细调整相结合，以使模型更加快速且效率更高，我们提出了 AlphaTuning 控制模型的大小，通过二进制编码量化、调整二进制参数和针对下游任务进行唯一的倍数调整，证明我们的方法在 11 种下游任务上使用 4 位或更高的量化精度时，仅使用总参数数量的 1/10 进行细调。

Oct, 2022

1 位 LLMs 的时代：所有大型语言模型都在 1.58 比特

1-bit Large Language Models (LLMs), such as BitNet b1.58, with ternary weights, define a new scaling law and offer high-performance and cost-effective solutions for training new generations of LLMs while enabling the design of hardware optimized for 1-bit LLMs.

Feb, 2024

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

FinGPT-HPC: 高性能计算在金融应用中高效地预训练和微调大型语言模型

通过利用低秩结构以及量化参数，本论文提出了一种高性能的基于 GPU 的方法用于预训练和微调大型语言模型，以实现金融应用，并取得了较快的速度和高模型压缩比，同时保持了很高的准确率。

Feb, 2024

利用差分隐私私密微调大型语言模型

通过使用基于 Edgeworth 会计师的有限样本隐私保证 DP 框架，我们提出了一种针对 LLM 的 DP 细调框架 ewtune，该框架直接降低了噪声的影响，且在自然语言理解任务上将最新的 LLMs 性能提高了 1.1％。

Oct, 2022

ApiQ: 2 位量化大型语言模型的精调

通过引入一种名为 ApiQ 的新型量化框架，本文解决了在大型语言模型中进行内存高效微调时，量化过程对预训练模型的知识损失以及错误传播所造成的问题，从而实现了在各种量化位宽下始终取得卓越的微调结果。

Feb, 2024