ShiftAddLLM：通过后期训练的无乘法重参数化加速预先训练的 LLMs

Jun, 2024

ShiftAddLLM：通过后期训练的无乘法重参数化加速预先训练的 LLMs

ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization

Haoran You, Yipin Guo, Yichao Fu, Wei Zhou, Huihong Shi...

TL;DR本研究提出了一种通过后期训练的 ShiftAndAddLLM 来加速预训练的大型语言模型，通过将每个权重矩阵量化为与分组缩放因子配对的二进制矩阵，并将与二进制矩阵相关的乘法重新参数化为在激活和缩放因子之间进行的移位和加法操作，以减少内存使用和延迟，并且通过多目标优化方法来最小化权重和输出激活重新参数化误差，进一步降低了精度损失。

Abstract

large language models (LLMs) have shown impressive performance on language tasks but face challenges when deployed on resource-constrained devices due to their extensive parameters and reliance on dense multiplications, resulting in high memory demands and latency bottlenecks.

large language models shift-and-add reparameterization accelerating pretrained llms binary matrices multi-objective optimization

发现论文，激发创造

SmoothQuant：大型语言模型后训练量化的准确高效算法

SmoothQuant 是一个训练免费的精度保持、通用的后训练量化解决方案，用于大型语言模型（LLMs），通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度，可以实现 LLMs 的 8 位权重和激活（W8A8）量化，同时提高硬件效率，以较小的精度损失实现高达 2 倍的内存减少和 1.56 倍的加速，是一个可降低硬件成本、民主化 LLMs 的一站式解决方案。

Nov, 2022

ShiftAddViT：基于混杂乘法原语的高效视觉 Transformer

本文提出了一种名为 ShiftAddViT 的卷积神经网络，用于多种视觉任务，该网络通过将注意力和多层感知机重新参数化为位移和加法，从而实现在 GPU 上进行端到端推理加速，并在一定程度上提高了训练和推断效率。

Jun, 2023

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

ShiftAddNet: 一种受硬件启发的深度网络

ShiftAddNet 是一种硬件启发式的深度神经网络，通过只使用位移和加权层替代传统的乘法运算来实现深度网络的显式参数化，从而获得与标准深度神经网络相当的表达能力和更加灵活的精度和效率之间的权衡，并且可以与量化和修剪等技术结合，实现在训练和推理中更加节能高效的性能。

Oct, 2020

SmoothQuant+: 精确高效的 LLM 后训练 4 位权重量化

提出了 SmoothQuant + 方法，它是一种准确而高效的 4 位权重量化方法，能够无损地减小大语言模型的内存开销，并且在精确度上没有损失。通过 SmoothQuant+，Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度，并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型，能够提高 1.9 至 4.0 倍的吞吐量，每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。

Dec, 2023

AffineQuant：大型语言模型的仿射变换量化

基于等效仿射变换的后训练量化方法 (AffineQuant) 扩展了优化范围，显著减少了量化误差，在大规模语言模型上达到了显著的性能提升，并在 PTQ 领域树立了新的技术标杆。

Mar, 2024

大型语言模型的量化策略的全面评估

对大型语言模型的量化技术进行研究，发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。

Feb, 2024

SqueezeLLM：紧密稀疏量化

通过引入 SqueezeLLM 后训练的量化框架，该框架不仅实现了高达 3 位的无损压缩，还在相同的内存约束下实现了更高的量化性能，可以将羊毛出在羊身上，仿佛神器一般。

Jun, 2023

LRQ：通过学习低秩权重缩放矩阵优化大型语言模型的后训练量化

通过使用低秩权重缩放矩阵代替常规的全权重缩放矩阵，我们提出了一种低秩量化方法（LRQ），可以在大规模语言模型中取得更高的压缩性能和推断效率，提高量化语言模型的泛化能力。

Jul, 2024

ShiftAddNAS: 更准确、更高效的神经网络的硬件启发式搜索

该研究工作介绍一种名为 ShiftAddNAS 的模型搜索算法，倡导用既具有强大计算能力又经济高效的操作符制约神经网络的深度学习，旨在寻找更为准确和高效的混合神经网络。该算法实现了多种操作符的混合和权重共享，并在各个首要指标和场景下均取得了显著优化。

May, 2022