DB-LLM：用於高效LLMs的準確雙二元化

Feb, 2024

DB-LLM：用於高效LLMs的準確雙二元化

DB-LLM: Accurate Dual-Binarization for Efficient LLMs

Hong Chen, Chengtao Lv, Liang Ding, Haotong Qin, Xiabin Zhou...

TL;DR该研究提出了一种新颖的双二值化方法（DB-LLM），用于大型语言模型（LLMs）的超低位量化，以提高计算效率，并通过偏差感知蒸馏（DAD）方法减少预测失真，实现了超低位量化时的显著准确性提升和计算效率降低。

Abstract

large language models (LLMs) have significantly advanced the field of natural language processing, while the expensive memory and computation consumption impede their practical deployment. quantization emerges as

发现论文，激发创造

PB-LLM：部分二元化大型语言模型

本文研究了网络二值化技术在大型语言模型（LLMs）压缩中的应用。通过提出一种新的方法，即部分二值化LLMs（PB-LLM），我们能够在保持低位量化的同时保持LLMs的语言推理能力。我们通过后训练量化（PTQ）和量化感知训练（QAT）的分析，提出了恢复量化LLMs容量的方法。这些研究和方法对于改善低位量化LLMs的性能以及网络二值化在LLMs领域的发展具有重要的意义。

Sep, 2023

BiLLM: 提高LLM后训练量化的极限

BiLLM是一种创新的1位后训练量化方案，定制了预训练的大型语言模型，实现了仅使用1.08位权重在各种LLM家族和评估指标上实现高准确度的推理，超过了LLM的SOTA量化方法。此外，BiLLM能够在单个GPU上在0.5小时内实现对拥有70亿权重的LLM的二值化过程，显示了令人满意的时间效率。

Feb, 2024

EasyQuant: 一种高效无数据量化算法用于LLMs

本研究提出了EasyQuant，这是一种训练免费且独立于数据的权重量化算法，旨在实现对大型语言模型（LLMs）的几乎无损量化性能，且算法运行速度比依赖于数据的方法快10倍以上。

Mar, 2024

结合多种后训练技术实现最高效的量化LLMs

通过 quantization 技术，结合 SmoothQuant 和 GPTQ 两种 post-training 技术，将模型量化为 MX 格式，能够显著减小优化型模型大小至多 4 倍，提高 LLaMA 模型大小至多 3 倍，同时仅仅增加 1-3% 的困惑度。

May, 2024

SliM-LLM：面向大型语言模型的显著性驱动混合精度量化

本文提出了一种基于显著性驱动的混合精度量化方案，即SliM-LLM，用于改进大型语言模型的精度和内存占用，并通过集成梯度量化器进一步减少困惑度。

May, 2024

量化语言模型的泛化能力评估：基准、分析与工具箱

使用全面的基准套件，我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响，并且发布了一个模块化设计的工具包来帮助未来的研究。

Jun, 2024

变量逐层量化：一种简单而有效的低比特量化迁移学习方法

我们提出了一种简单的变量量化方法，该方法将大型语言模型的不同层在不同的比特级别上进行量化，通过将最重要的层量化为更高比特精度并将不太重要的层量化为较低比特以实现浮点量化级别。

Jun, 2024

低比特大语言模型的调研：基础、系统与算法

本研究针对大语言模型在实际应用中面临的高内存和计算需求问题，提出低比特量化作为一种解决方案。论文通过系统性综述低比特量化方法，涵盖基本原理、系统实现以及算法策略，为未来大语言模型的高效性和适用性提供了重要的见解和指导。

Sep, 2024

低比特大型语言模型的调研：基础、系统与算法

本文针对大型语言模型在实际应用中面临的高内存和计算需求问题，提出了低比特量化作为解决方案。通过系统地总结低比特量化的方法和实现，提供了基础概念、系统框架及高效训练与推理技术的深入分析，指出未来低比特大型语言模型发展的潜力和趋势。

Sep, 2024

ARB-LLM：大语言模型的交替精细二元化

本研究针对大语言模型（LLM）在实际应用中面临的高内存和计算需求问题，提出了一种新颖的后训练量化技术ARB-LLM。通过交替精细二元化算法，研究有效缩小了二元权重与全精度权重之间的分布差距，并引入列偏差的处理策略，从而实现了对现有二元化方法的显著性能提升。

Oct, 2024