AlphaTuning: 大规模预训练语言模型的量化感知参数高效适应

EMNLPOct, 2022

AlphaTuning: 大规模预训练语言模型的量化感知参数高效适应

AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models

Se Jung Kwon, Jeonghoon Kim, Jeongin Bae, Kang Min Yoo, Jin-Hwa Kim...

TL;DR本研究旨在将后训练量化与仅对定向任务的一些部分进行量化的精细调整相结合，以使模型更加快速且效率更高，我们提出了 AlphaTuning 控制模型的大小，通过二进制编码量化、调整二进制参数和针对下游任务进行唯一的倍数调整，证明我们的方法在 11 种下游任务上使用 4 位或更高的量化精度时，仅使用总参数数量的 1/10 进行细调。

Abstract

There are growing interests in adapting large-scale language models using parameter-efficient fine-tuning methods. However, accelerating the model itself and achieving better inference efficiency through

large-scale language models parameter-efficient fine-tuning model compression post-training quantization binary-coding quantization

发现论文，激发创造

基于低于 4 位整数量化的大规模压缩语言模型记忆高效调优

提出了一种基于量化的参数高效微调方法 PEQA，通过一个双阶段的策略将每个全连接层的参数矩阵量化成低比特整数矩阵和标量向量，然后对每个下游任务的标量向量进行微调，从而在模型压缩和加速推理的同时，实现了快速微调和高效任务切换，并在大型语言模型上进行了全面的实验。

May, 2023

QFT：量子化的低资源 LLM 全参数调整

提出了一种名为 QFT 的新型量化全参数调优框架，可以实现内存高效调优而不损害性能。该框架采用高效的 Lion 优化器和整数值量化的模型状态存储方法，并提供了梯度流和参数更新方案。结果表明，QFT 将模型状态内存减少到标准解决方案的 21%，同时达到可比较的性能，例如，调优 LLaMA-7B 模型仅需 30GB 内存，一张 A6000 GPU 即可满足。

Oct, 2023

PV-Tuning：用于极高 LLM 压缩的超越直通估计的方法

该研究提出了 PV-Tuning，一个对于极端压缩语言模型的量化感知微调策略的表示无关框架，通过在实践中应用于 1-2 位矢量量化，PV-Tuning 在高性能模型如 Llama 和 Mistral 中优于先前的技术，实现了 Llama 2 系列模型每个参数 2 位的帕累托最优量化。

May, 2024

BERT 自动混合精度量化搜索

本文提出了一种针对 BERT 模型的自动混合精度量化框架，可以在子组水平同时进行量化和修剪，实现了压缩模型和保持同样性能的目标，并结合 DistilBERT 等方法获得了极轻量级模型。

Dec, 2021

APT: 自适应剪枝和调整预训练语言模型用于高效训练和推理

通过自适应修剪和调整参数，APT 可以提高语言模型的训练和推理效率，同时保持高性能。

Jan, 2024

Delta 调参：针对预训练语言模型的参数高效方法的全面研究

本文首先正式描述了 delta tuning 的问题，然后全面审查了最近的 delta tuning 方法，并提出了一个统一的分类标准，将现有的 delta tuning 方法分为三组：基于加法、基于规范和基于重新参数化的方法。最后，我们对代表性方法进行了全面的实验研究，100 多个 NLP 任务的结果表明了不同方法的综合表现比较。

Mar, 2022

QuantTune: 自适应异常值驱动的模型量化优化

我们的研究着重于发现 Transformer-based 模型在后训练线性量化过程中准确性下降的潜在原因，并提出了一种适用于量化的微调方法 QuantTune。该方法通过根据异常激活的偏差调整权重，有效控制了有问题激活的动态范围，从而在几种 Transformer-based 模型中实现了显著的后训练量化的改进。

Mar, 2024

EfficientDM: 高效的低位扩散模型量化感知微调

提出了一种数据自由且参数高效的优化方法 EfficientDM，它通过引入量化感知的低秩适配器 QALoRA 来实现 QAT 级别的性能与 PTQ 的效率相似，从而优化低位扩散模型的性能，并且在时间和数据效率方面显著超过之前基于 PTQ 的扩散模型。

Oct, 2023

ApiQ: 2 位量化大型语言模型的精调

通过引入一种名为 ApiQ 的新型量化框架，本文解决了在大型语言模型中进行内存高效微调时，量化过程对预训练模型的知识损失以及错误传播所造成的问题，从而实现了在各种量化位宽下始终取得卓越的微调结果。

Feb, 2024

L4Q：大型语言模型的参数高效量化感知训练：基于 LoRA-wise LSQ

L4Q 是一种参数高效的量化感知训练算法，利用 LLMs 中学到的低秩适应性量化步长，实现对高精度模型的同时量化和微调，达到亚 4 位精度并保持与应用 PEFT 在量化模型上相当的训练时间。

Feb, 2024