具有 4 位状态的内存高效优化器

Sep, 2023

Memory Efficient Optimizers with 4-bit States

Bingrui Li, Jianfei Chen, Jun Zhu

TL;DR通过详细的经验分析，本研究将优化器状态位宽降到 4 位，通过更好的量化方法，解决了动量中的离群值问题和二阶动量的零点问题，从而在自然语言理解、机器翻译、图像分类和指令优化等任务中实现了与全精度对应方法相当的准确性，同时提高了内存效率。

Abstract

optimizer states are a major source of memory consumption for training neural networks, limiting the maximum trainable model within given memory budget. Compressing the optimizer states from 32-bit floating point

optimizer states bitwidth empirical analysis quantization memory efficiency

发现论文，激发创造

基于块状量化的 8 位优化器

本文开发了首个使用 8 位统计量进行训练的优化器，采用了分块动态量化进行加速，同时结合了非线性优化和嵌入层技术以提高精度和稳定性，并在一系列任务中展现了较高的性能和较小的内存占用。

Oct, 2021

高效内存网络训练的 4 位洗发水

提出了首个 4 位二阶优化器，示例为 4 位 Shampoo，其性能与 32 位相似；通过量化预处理器的特征向量矩阵，改善近似性和计算的效果，同时实现更高的存储效率。

May, 2024

4 位精度的必要性：k 位推断缩放定律

研究语言模型在压缩模型时的精度与模型大小之间的平衡，发现在总模型位和零 - shot 准确度方面，{4 位} 精度几乎普遍最优。

Dec, 2022

使用四位整数训练变压器

本文提出了一种使用 INT4 算法进行 transformer 训练的方法，以实现低精度的前向和后向传播，并通过 Hadamard 量化器和位分裂等技术处理异常值和稀疏梯度，从而实现在当前型号 GPU 上完成快速的模型训练。

Jun, 2023

OneBit: 极低位大型语言模型

该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销，并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能（至少达到非量化性能的 83%）。

Feb, 2024

使用 8 位浮点数进行混合精度训练

本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法，减少计算精度和主权重复制的精度要求，并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明，所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。

May, 2019

在 GPU 上实现快速 2 位硬件离线量化低内存映射：内存对齐、稀疏离群值和异步解量化

通过以较小的计算代价解决对大型语言模型（LLMs）进行量化和去量化操作时所面临的问题，我们提出了一种新的技术，并在不同模型和尺寸上进行了广泛实验，成功实现了每个权重的 2.85 位表示，模型的端到端加速比为 1.74 倍，同时降低了运行成本和硬件需求。

Nov, 2023

内存高效的混合精度优化器

传统优化方法依赖于使用单精度浮点算术，在内存大小和计算性能方面具有成本。然而，混合精度优化技术利用单精度和半精度浮点算术来降低内存需求，同时保持模型准确性。我们在训练模型期间提供了一种算法，通过摆脱参数的浮点副本，实际上只保留半精度数，进一步减少内存使用。我们还通过在反向传播期间执行优化器步骤来探索去除梯度值的好处。在实践中，我们实现了高达 25% 的峰值内存使用降低和 15% 的更快训练速度，同时保持相同水平的准确性。

Sep, 2023

FrameQuant: 柔性低位量化技术用于变换器

通过引入从谐波分析中借用的融合框架的概念，我们提出了一种简化方案来将基于 Transformer 的模型量化为仅使用两位（加一些开销），并只在准确性上稍有降低，通过实验证明，此方案对 Transformer 模型的量化几乎可以实现显著的效率提升。

Mar, 2024

BitPruning: 学习位长进行激进而精确的量化

通过提出一种惩罚体系惩罚大位长表示的正则化方法，我们可以在维持准确性的同时，在任意合适的层次上最小化推理位长。

Feb, 2020