设备端人工智能：时间序列中变换器的量化感知训练

Aug, 2024

设备端人工智能：时间序列中变换器的量化感知训练

On-device AI: Quantization-aware Training of Transformers in Time-Series

Tianheng Ling, Gregor Schiele

TL;DR本研究解决了在资源有限的传感器设备上部署大型变换器模型所面临的性能难题。通过采用量化感知训练的方法，我的研究优化了变换器模型，以便在嵌入式场可编程门阵列（FPGA）上高效运行。研究表明，此方法能显著减少模型的大小和运行内存占用，并充分发挥FPGA的优势。

Abstract

Artificial Intelligence (AI) models for Time-Series in pervasive computing keep getting larger and more complicated. The Transformer model is by far the most compelling of these AI models. However, it is difficult to obtain the desired performance when deploying such a massive model on

发现论文，激发创造

理解和克服高效Transformer量化的挑战

本文探讨了Transformer模型的量化问题，并给出了三种解决方法，其中一种基于embedding group的量化方法建立了新的量化模型，该方法可降低模型内存占用且保证了一定的精度。通过在GLUE基准测试中使用BERT，我们准确评估了这些方法的有效性，并提出了一种新的超低比特宽度的transformer权重和embedding的量化方法，以实现更大的内存节省。

Sep, 2021

优化Transformer推理技术综述

本文综述了技术优化变压器网络推断的技术，包括知识蒸馏，修剪，量化，神经架构搜索和轻量级网络设计，以及硬件级优化技术和设计新型硬件加速器，可帮助读者权衡参数/ FLOP数量和准确性之间的关系。

Jul, 2023

关于资源受限的FPGA上基于时间序列Transformer模型的量化感知训练研究

本研究探讨在时间序列Transformer模型上的量化感知训练（QAT），并提出了一种新颖的自适应量化方案，在QAT阶段动态选择对称和非对称方案。我们的方法证明了将量化方案与实际数据分布匹配可以减少计算开销同时保持可接受的精度。此外，我们的方法在应用于真实数据和混合精度量化时具有鲁棒性，其中大部分对象被量化为4位。我们的发现为模型量化和部署决策提供指导，同时为进一步发展量化技术奠定基础。

Oct, 2023

基于Transformer的长期时间序列预测的系统综述

深度学习在时间序列预测方面取得了显著进展，其中Transformer架构在处理长序列的语义相关性方面表现出色。研究综述了Transformer架构及其改进方法在长期时间序列预测任务中的应用，总结了公开的长期时间序列预测数据集和评估指标，并提供了关于在时间序列分析中有效训练transformers的最佳实践和技术，最后提出了该领域的潜在研究方向。

Oct, 2023

利用敏锐感知最小化和通道关注解锁Transformers在时间序列预测中的潜力

通过研究一个玩具线性预测问题，我们发现变压器尽管具有高表达能力，但不能收敛于真实解，这是由于其注意力机制的低泛化能力。基于这一发现，我们提出了一种浅层轻量级变压器模型，在利用尖锐感知优化时能够成功逃离糟糕的局部最小值。我们通过实验证明这一结果在所有常用的多变量时间序列数据集上成立，并且SAMformer平均超过当前最先进模型TSMixer 14.33%，同时参数数量仅为其四分之一。

Feb, 2024

Jetfire：使用INT8数据流和每块量化实现高效准确的Transformer预训练

Jetfire提出了一种高效准确的INT8预训练方法，通过INT8数据流优化内存访问和每个块的量化方法来实现与FP16基线相当的准确性，且相对于FP16基线，提供了1.42倍的训练加速和1.49倍的内存减少。

Mar, 2024

视觉Transformer模型量化和硬件加速：综述

Vision Transformers（ViTs）的模型量化和硬件加速方面进行了综合调查，探讨了ViTs的独特架构特性、运行时特性、模型量化的基本原则，以及用于ViTs的最新量化技术的比较分析。此外，还探索了量化ViTs的硬件加速，强调了硬件友好算法设计的重要性，并讨论了未来的挑战和研究方向。

May, 2024

早期Transformer：通过提前中签抽奖实现Transformer模型的高效训练

通过组合迭代剪枝、遮蔽距离计算和选择性重训练等方法，本研究调查并验证了早鸟票假设对Transformer模型训练效率的适用性。实验结果表明，在Transformer模型的训练或微调的前几个周期内，可以持续发现早鸟票，并且在显著减少资源占用的情况下，可以获得与未剪枝模型相媲美甚至更高的准确率。此外，对比分析突显了早鸟票现象在不同Transformer模型和任务中的普适性，为Transformer模型的高效训练策略的发展做出了贡献。通过利用早鸟票，从业者可以加速自然语言处理和计算机视觉应用的进展，同时减少Transformer模型训练的计算负担。

May, 2024

基于Transformer的时间序列合成综述

在图像和语言领域，生成式人工智能已经引起了很大关注，使用转换器神经网络持续主导最新技术。然而，将这些模型应用于时间序列生成的研究尚不充分，而这对于机器学习、隐私保护和可解释性研究具有极大的实用价值。本综述通过识别转换器、生成式人工智能和时间序列数据这一稀缺研究子领域，回顾了已有的研究工作。回顾的工作方法多样，但尚未就该领域提出解决问题的确定答案。在最初进行的调查中，除了转换器之外，还遇到了GANs、扩散模型、状态空间模型和自编码器。虽然该领域还没有提供确定性的洞见，但是已经回顾的工作具有很大的启发性，并提供了一些建议的最佳实践和有价值的未来工作建议。

Jun, 2024

基于嵌入式FPGA的整数量化变压器用于AIoT中的时间序列预测

本文介绍了一种为AIoT系统中的设备端时间序列预测而优化的Transformer硬件加速器的设计，它结合了整数量化和量化感知训练与优化的硬件设计，实现了6位和4位量化的Transformer模型，其精度与相关研究中的8位量化模型可比。通过在嵌入式FPGA（Xilinx Spartan-7 XC7S15）上进行完整的实现，我们考察了在嵌入式IoT设备上部署Transformer模型的可行性。我们的结果表明，虽然可以达到足够的性能，但优化过程并不简单。与相关研究中的8位量化Transformer模型相比，我们的4位量化Transformer模型仅增加0.63%的测试损失，运行速度高达132.33倍，能耗减少48.19倍。

Jul, 2024