本文开发了首个使用 8 位统计量进行训练的优化器,采用了分块动态量化进行加速,同时结合了非线性优化和嵌入层技术以提高精度和稳定性,并在一系列任务中展现了较高的性能和较小的内存占用。
Oct, 2021
提出了首个 4 位二阶优化器,示例为 4 位 Shampoo,其性能与 32 位相似;通过量化预处理器的特征向量矩阵,改善近似性和计算的效果,同时实现更高的存储效率。
May, 2024
研究语言模型在压缩模型时的精度与模型大小之间的平衡,发现在总模型位和零 - shot 准确度方面,{4 位} 精度几乎普遍最优。
Dec, 2022
本文提出了一种使用 INT4 算法进行 transformer 训练的方法,以实现低精度的前向和后向传播,并通过 Hadamard 量化器和位分裂等技术处理异常值和稀疏梯度,从而实现在当前型号 GPU 上完成快速的模型训练。
Jun, 2023
该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销,并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能(至少达到非量化性能的 83%)。
Feb, 2024
本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法,减少计算精度和主权重复制的精度要求,并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明,所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。
May, 2019
通过以较小的计算代价解决对大型语言模型(LLMs)进行量化和去量化操作时所面临的问题,我们提出了一种新的技术,并在不同模型和尺寸上进行了广泛实验,成功实现了每个权重的 2.85 位表示,模型的端到端加速比为 1.74 倍,同时降低了运行成本和硬件需求。
Nov, 2023
传统优化方法依赖于使用单精度浮点算术,在内存大小和计算性能方面具有成本。然而,混合精度优化技术利用单精度和半精度浮点算术来降低内存需求,同时保持模型准确性。我们在训练模型期间提供了一种算法,通过摆脱参数的浮点副本,实际上只保留半精度数,进一步减少内存使用。我们还通过在反向传播期间执行优化器步骤来探索去除梯度值的好处。在实践中,我们实现了高达 25% 的峰值内存使用降低和 15% 的更快训练速度,同时保持相同水平的准确性。
Sep, 2023
通过引入从谐波分析中借用的融合框架的概念,我们提出了一种简化方案来将基于 Transformer 的模型量化为仅使用两位(加一些开销),并只在准确性上稍有降低,通过实验证明,此方案对 Transformer 模型的量化几乎可以实现显著的效率提升。
Mar, 2024
通过提出一种惩罚体系惩罚大位长表示的正则化方法,我们可以在维持准确性的同时,在任意合适的层次上最小化推理位长。
Feb, 2020