设备端人工智能:时间序列中变换器的量化感知训练
本文探讨了Transformer模型的量化问题,并给出了三种解决方法,其中一种基于embedding group的量化方法建立了新的量化模型,该方法可降低模型内存占用且保证了一定的精度。通过在GLUE基准测试中使用BERT,我们准确评估了这些方法的有效性,并提出了一种新的超低比特宽度的transformer权重和embedding的量化方法,以实现更大的内存节省。
Sep, 2021
本文综述了技术优化变压器网络推断的技术,包括知识蒸馏,修剪,量化,神经架构搜索和轻量级网络设计,以及硬件级优化技术和设计新型硬件加速器,可帮助读者权衡参数/ FLOP数量和准确性之间的关系。
Jul, 2023
本研究探讨在时间序列Transformer模型上的量化感知训练(QAT),并提出了一种新颖的自适应量化方案,在QAT阶段动态选择对称和非对称方案。我们的方法证明了将量化方案与实际数据分布匹配可以减少计算开销同时保持可接受的精度。此外,我们的方法在应用于真实数据和混合精度量化时具有鲁棒性,其中大部分对象被量化为4位。我们的发现为模型量化和部署决策提供指导,同时为进一步发展量化技术奠定基础。
Oct, 2023
深度学习在时间序列预测方面取得了显著进展,其中Transformer架构在处理长序列的语义相关性方面表现出色。研究综述了Transformer架构及其改进方法在长期时间序列预测任务中的应用,总结了公开的长期时间序列预测数据集和评估指标,并提供了关于在时间序列分析中有效训练transformers的最佳实践和技术,最后提出了该领域的潜在研究方向。
Oct, 2023
通过研究一个玩具线性预测问题,我们发现变压器尽管具有高表达能力,但不能收敛于真实解,这是由于其注意力机制的低泛化能力。基于这一发现,我们提出了一种浅层轻量级变压器模型,在利用尖锐感知优化时能够成功逃离糟糕的局部最小值。我们通过实验证明这一结果在所有常用的多变量时间序列数据集上成立,并且SAMformer平均超过当前最先进模型TSMixer 14.33%,同时参数数量仅为其四分之一。
Feb, 2024
Jetfire提出了一种高效准确的INT8预训练方法,通过INT8数据流优化内存访问和每个块的量化方法来实现与FP16基线相当的准确性,且相对于FP16基线,提供了1.42倍的训练加速和1.49倍的内存减少。
Mar, 2024
Vision Transformers(ViTs)的模型量化和硬件加速方面进行了综合调查,探讨了ViTs的独特架构特性、运行时特性、模型量化的基本原则,以及用于ViTs的最新量化技术的比较分析。此外,还探索了量化ViTs的硬件加速,强调了硬件友好算法设计的重要性,并讨论了未来的挑战和研究方向。
May, 2024
通过组合迭代剪枝、遮蔽距离计算和选择性重训练等方法,本研究调查并验证了早鸟票假设对Transformer模型训练效率的适用性。实验结果表明,在Transformer模型的训练或微调的前几个周期内,可以持续发现早鸟票,并且在显著减少资源占用的情况下,可以获得与未剪枝模型相媲美甚至更高的准确率。此外,对比分析突显了早鸟票现象在不同Transformer模型和任务中的普适性,为Transformer模型的高效训练策略的发展做出了贡献。通过利用早鸟票,从业者可以加速自然语言处理和计算机视觉应用的进展,同时减少Transformer模型训练的计算负担。
May, 2024
在图像和语言领域,生成式人工智能已经引起了很大关注,使用转换器神经网络持续主导最新技术。然而,将这些模型应用于时间序列生成的研究尚不充分,而这对于机器学习、隐私保护和可解释性研究具有极大的实用价值。本综述通过识别转换器、生成式人工智能和时间序列数据这一稀缺研究子领域,回顾了已有的研究工作。回顾的工作方法多样,但尚未就该领域提出解决问题的确定答案。在最初进行的调查中,除了转换器之外,还遇到了GANs、扩散模型、状态空间模型和自编码器。虽然该领域还没有提供确定性的洞见,但是已经回顾的工作具有很大的启发性,并提供了一些建议的最佳实践和有价值的未来工作建议。
Jun, 2024
本文介绍了一种为AIoT系统中的设备端时间序列预测而优化的Transformer硬件加速器的设计,它结合了整数量化和量化感知训练与优化的硬件设计,实现了6位和4位量化的Transformer模型,其精度与相关研究中的8位量化模型可比。通过在嵌入式FPGA(Xilinx Spartan-7 XC7S15)上进行完整的实现,我们考察了在嵌入式IoT设备上部署Transformer模型的可行性。我们的结果表明,虽然可以达到足够的性能,但优化过程并不简单。与相关研究中的8位量化Transformer模型相比,我们的4位量化Transformer模型仅增加0.63%的测试损失,运行速度高达132.33倍,能耗减少48.19倍。
Jul, 2024