关于资源受限的 FPGA 上基于时间序列 Transformer 模型的量化感知训练研究

Oct, 2023

关于资源受限的 FPGA 上基于时间序列 Transformer 模型的量化感知训练研究

A Study of Quantisation-aware Training on Time Series Transformer Models for Resource-constrained FPGAs

Tianheng Ling, Chao Qian, Lukas Einhaus, Gregor Schiele

TL;DR本研究探讨在时间序列 Transformer 模型上的量化感知训练（QAT），并提出了一种新颖的自适应量化方案，在 QAT 阶段动态选择对称和非对称方案。我们的方法证明了将量化方案与实际数据分布匹配可以减少计算开销同时保持可接受的精度。此外，我们的方法在应用于真实数据和混合精度量化时具有鲁棒性，其中大部分对象被量化为 4 位。我们的发现为模型量化和部署决策提供指导，同时为进一步发展量化技术奠定基础。

Abstract

This study explores the quantisation-aware training (QAT) on time series transformer models. We propose a novel →

quantisation-aware training time series transformer models adaptive quantisation scheme mixed-precision quantisation

发现论文，激发创造

教师干预：提高超低精度 Transformer 量化感知训练的收敛性

本论文提出了一种名为 Teacher Intervention（TI）的主动知识蒸馏方法，用于快速收敛超低精度预训练 Transformer 的 QAT，并采用逐步干预机制来稳定恢复 Transformer 层的子节，提高模型准确性。

Feb, 2023

一种深度神经网络低比特宽度训练的统计框架

本论文提出了一个用于分析全量化训练算法的统计框架，并探讨了梯度量化对其收敛性的影响。作者开发了两个新的梯度量化器，并展示了这些量化器相对于现有的每个张量量化器具有更小的方差。

Oct, 2020

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

RAND：针对量化 Seq2seq 模型的鲁棒性感知范数衰减

本文提出了一种低复杂度的量化感知训练方法，以将 4 位序列到序列模型应用于语音识别数据集，并在模型精度方面优于常见的学习比例尺和裁剪方法。

May, 2023

自适应核心集选择的高效量化感知训练

本文提出一种基于 coreset selection 的 quantization-aware adaptive coreset selection (ACS) 方法，以提高 quantization-aware training 的训练效率。该方法通过 error vector score 和 disagreement score 量化每个样本的重要性，并根据这些指标选择数据进行训练，在多个网络和数据集上获得了显著的提高。

Jun, 2023

Q-S5：朝向量化状态空间模型

探索量化对 S5 模型的影响以及将其部署到边缘和资源受限平台的有效性。使用量化感知训练（QAT）和事后量化（PTQ）系统评估了 SSM 在不同任务上的量化灵敏度，研究结果表明，循环权重低于 8 位精度时，大多数任务的性能显著下降，而其他组件可以进一步压缩而不会引起显著的性能损失。此外，研究还发现 PTQ 在基于语言的任务上表现良好，而其他任务则需要 QAT。该研究为高效和硬件优化的 SSM 的持续发展提供了必要的见解。

Jun, 2024

AdaQAT：自适应比特宽度量化感知训练

本文介绍了 AdaQAT，一种基于学习的方法，用于在训练过程中自动优化深度神经网络的权重和激活信号的比特宽度，以实现更高效的推断。相比其他方法，AdaQAT 在从头开始训练和微调场景中表现良好，并在 CIFAR-10 和 ImageNet 数据集上使用 ResNet20 和 ResNet18 模型表明我们的方法与最先进的混合精度量化方法竞争力强。

Apr, 2024

理解和克服高效 Transformer 量化的挑战

本文探讨了 Transformer 模型的量化问题，并给出了三种解决方法，其中一种基于 embedding group 的量化方法建立了新的量化模型，该方法可降低模型内存占用且保证了一定的精度。通过在 GLUE 基准测试中使用 BERT，我们准确评估了这些方法的有效性，并提出了一种新的超低比特宽度的 transformer 权重和 embedding 的量化方法，以实现更大的内存节省。

Sep, 2021

后训练量化中的注意力轮

本研究提出了一种名为 Attention Round 的新型量化方法，利用密度函数实现了参数映射，使得小样本量即可完成量化加速，并通过损失编码长度对模型的不同层进行位宽分配来解决混合精度量化问题，该方法在不同模型上的实验结果表明具有良好的量化性能及实用性。

Jul, 2022

迈向超大规模 Transformer 的下一级后训练量化

本文提出了一种新颖的 PTQ 算法 aespa，通过逐层量化实现高效性，同时考虑跨层依赖以保留注意力分数，通过对多种语言模型的广泛实验和复杂度分析，证明了 aespa 在量化 Transformer 模型时具备准确性和高效性。

Feb, 2024