使用整数正向和反向传播微调预训练语言模型

ACLSep, 2022

使用整数正向和反向传播微调预训练语言模型

Towards Fine-tuning Pre-trained Language Models with Integer Forward and Backward Propagation

Mohammadreza Tayaranian, Alireza Ghaffari, Marzieh S. Tahaei, Mehdi Rezagholizadeh, Masoud Asgharian...

TL;DR本研究提出使用整数算术（integer arithmetic）进行 BERT 模型的微调，通过改变整数位宽度，在 SQuAD 和 GLUE benchmark 数据集上验证了该方法的有效性，显示出 16 位整数 BERT 的指标性能与 16 位和 32 位浮点数基线相匹配。同时使用更快且更省内存的 8 位整数数据类型，整数微调 BERT 比 FP32 基线平均损失了 3.1 个指标点。

Abstract

The large number of parameters of some prominent language models, such as bert, makes their fine-tuning on downstream tasks computationally intensive and energy hungry. Previously researchers were focused on lowe

bert fine-tuning integer arithmetic squad glue benchmark

发现论文，激发创造

变形金刚模型全面实现 8 位整型推断

通过对 Transformer 模型进行整合，得到了一个 8 位整型 Inference 算法，其鲁棒的 8 位量化方法大大减少了内存占用问题。实验结果表明，与基准架构相比，该算法的性能基本一致且内存占用减少了近 4 倍。

Sep, 2020

I-BERT：仅限整数的 BERT 量化

本研究提出了一种新的基于整数的 Transformer 模型量化方案 I-BERT，使用轻量级整数逼近方法进行端到端的 Bert 推理，无需浮点计算，相较于全精度基准实现在准确率上相当甚至略有提高，同时在 T4 GPU 系统上进行 8 位整数推理的速度比 32 位浮点推理快 2.4-4 倍。

Jan, 2021

深度学习推理的整数量化：原理与实证评估

本文介绍了量化技术如何减小深度神经网络的规模，提高推理延迟和吞吐量，并评估它们在各种应用领域的不同神经网络模型上的选择，包括视觉、语音和语言等方面，并重点介绍适用于高吞吐量整数数学流水线处理器加速的量化技术。同时，还提供了一种 8 位量化工作流，能够在所有研究的网络上保持 1% 的浮点基线精度，包括更难量化的模型，如 MobileNets 和 BERT-large。

Apr, 2020

Q8BERT：量化 8 位 BERT

本文介绍了如何在 BERT 的 fine-tuning 阶段进行量化感知的训练，以将 BERT 压缩 4 倍并加速推理速度。

Oct, 2019

FP8-BERT：Transformer 的后训练量化

本文通过对 GLUE 和 SQuAD v1.1 数据集上的 BERT 变种进行大量实验，验证了 FP8 作为一种进行后训练量化的有效方式，能够在不显著损失精度的情况下提高准确性。

Dec, 2023

使用 8 位浮点数进行混合精度训练

本文介绍了一个使用 8 位浮点表示法训练深度神经网络的方法，减少计算精度和主权重复制的精度要求，并且通过强化误差传播和降低量化噪声的方法来提高模型性能。实验表明，所提出方法在多个数据集和不同工作负载下与精度基线相比不降反升。

May, 2019

降低语言模型低精度微调中的异常激活

低精度微调模型在大规模模型部署中变得日益重要，然而，异常值激活对其性能有负面影响。本文研究了在语言模型的低精度整数微调中缓解异常值激活的技术，提出了一种新颖方法，使用 8 位整数而不是浮点数表示异常值激活。通过理论分析和实验支持，证明了该方法在提高低精度微调语言模型的鲁棒性和性能方面的有效性。

Dec, 2023

基于低于 4 位整数量化的大规模压缩语言模型记忆高效调优

提出了一种基于量化的参数高效微调方法 PEQA，通过一个双阶段的策略将每个全连接层的参数矩阵量化成低比特整数矩阵和标量向量，然后对每个下游任务的标量向量进行微调，从而在模型压缩和加速推理的同时，实现了快速微调和高效任务切换，并在大型语言模型上进行了全面的实验。

May, 2023

使用 8 位整数训练高性能和大规模深度神经网络

本文提出了一种名为 WAGEUBN 的统一完整量化框架，可将神经网络的数据路径（包括所有数据类型 W，A，G，E，U 和 BN）中所有数据转换为低位整数以实现全面量化和在线训练，并在 ImageNet 数据集上获得了可比较的精度，展示了在大规模 DNNs 中 8 位 INT 级别的完整量化的功能性。

Sep, 2019

使用 8 位浮点数进行大型语言模型的训练和推理

本文介绍了一种用于选择 FP8 线性层缩放的方法，基于动态更新权重、梯度和激活值的每张张量尺度，用于训练和验证 GPT 和 Llama 2 等大型语言模型。

Sep, 2023