BitDelta:你的微调可能只相当于 1 个比特
通过将细调的大语言模型进行分解和压缩,并采用混合精度的方法,我们提出了一个保持模型性能的增量量化方法,实验证明其在各种细调的语言模型中表现出与完整模型相当的性能,在低秩和低比特方法上也表现出明显优势,并且与其他基础语言模型兼容。
Jun, 2024
通过提取和压缩模型与其预训练基础模型之间的差异,DeltaZip 是一种 LLM 服务系统,可以高效地同时提供多个全参数微调模型,压缩因子可达 6 倍至 8 倍,并且可以提高服务吞吐量 1.5 倍至 3 倍,相比于香草 HuggingFace 服务系统,可改善 SLO 达成率。
Dec, 2023
本文首先正式描述了 delta tuning 的问题,然后全面审查了最近的 delta tuning 方法,并提出了一个统一的分类标准,将现有的 delta tuning 方法分为三组:基于加法、基于规范和基于重新参数化的方法。最后,我们对代表性方法进行了全面的实验研究,100 多个 NLP 任务的结果表明了不同方法的综合表现比较。
Mar, 2022
大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调,但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果,本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs,实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好,并且在运行时间上可比较。
Jan, 2024
本研究旨在将后训练量化与仅对定向任务的一些部分进行量化的精细调整相结合,以使模型更加快速且效率更高,我们提出了 AlphaTuning 控制模型的大小,通过二进制编码量化、调整二进制参数和针对下游任务进行唯一的倍数调整,证明我们的方法在 11 种下游任务上使用 4 位或更高的量化精度时,仅使用总参数数量的 1/10 进行细调。
Oct, 2022
1-bit Large Language Models (LLMs), such as BitNet b1.58, with ternary weights, define a new scaling law and offer high-performance and cost-effective solutions for training new generations of LLMs while enabling the design of hardware optimized for 1-bit LLMs.
Feb, 2024
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
通过利用低秩结构以及量化参数,本论文提出了一种高性能的基于 GPU 的方法用于预训练和微调大型语言模型,以实现金融应用,并取得了较快的速度和高模型压缩比,同时保持了很高的准确率。
Feb, 2024
通过使用基于 Edgeworth 会计师的有限样本隐私保证 DP 框架,我们提出了一种针对 LLM 的 DP 细调框架 ewtune,该框架直接降低了噪声的影响,且在自然语言理解任务上将最新的 LLMs 性能提高了 1.1%。
Oct, 2022
通过引入一种名为 ApiQ 的新型量化框架,本文解决了在大型语言模型中进行内存高效微调时,量化过程对预训练模型的知识损失以及错误传播所造成的问题,从而实现了在各种量化位宽下始终取得卓越的微调结果。
Feb, 2024