BETA: 边缘二值化能效优化的 Transformer 加速器
本文提出一种改进的二元转换器方法,通过引入一种新型的弹性二元激活函数、两种二元化方案以及一种逐步压缩高精度模型的方法,实现了在实际精度水平下的完全二元化转换模型,并在 GLUE 语义理解基准测试上取得了接近完全精度 BERT 基线的成果。
May, 2022
本文提出了 SwiftTron,这是一种高效的专用硬件加速器,旨在支持量化 Transformer 的不同类型操作,并考虑了各种缩放因子以进行正确的计算,在 65 纳米 CMOS 技术中,RoBERTa-base 模型的加速器在 1.83 纳秒内执行,同时消耗 33.64 mW 的功率,占用 273 平方毫米的面积,可以缓解 Transformers 在资源受限的 EdgeAI /tinyML 设备上部署的挑战。
Apr, 2023
通过使用二次幂量化和基于位移乘累加运算代替传统的乘累加运算,以及基于对数量化的新型剪枝方法,本文在基于 Zynq UltraScale + MPSoC ZCU104 SoC FPGA 的硬件神经网络加速器中实现了 Power-of-Two (PoT) 权重,实现了至少 $1.4x$ 的能效提升。
Sep, 2022
该论文提出了 ITA,一种新颖的加速器架构,用于 Transformer 模型和相关模型的高效推理,通过利用 8 位量化和一种仅操作整数值的创新 softmax 实现,在嵌入式系统上实现了低功耗和高效能。ITA 在能效上与最先进的 Transformer 加速器相媲美,达到 16.9 TOPS/W,而在面积效率方面以 22 纳米完全耗尽硅上绝缘体技术满足 0.8 V 下的每平方毫米 5.93 TOPS/mm² 的性能。
Jul, 2023
本文提出了一种新的二值化技术,基于一位权重和激活函数的 Transformer 应用于机器翻译,实验证明其可以达到与浮点型 Transformer 相同的质量,同时大小只有其 16 倍,并通过额外的 LayerNorms 和残差连接改进了二值化的质量。此外,作者在生产规模的翻译数据集上进行了一项标尺研究,表明一位权重 Transformer 在域内和域外环境下均具有可扩展性和良好的泛化效果。
Feb, 2023
本研究提出一种混合精度量化策略,将 Transformer 权重表示为极低位数(例如小于 3 位),该压缩策略使得在设备上实现高效的神经机器翻译变得可行,实现了模型大小 11.8 倍的减小,内存占用减少 8.3 倍,速度提高 3.5 倍,同时 BLEU 低于 - 0.5。
Sep, 2020
提出了一种新颖的内存数据排列策略,通过硬件加速器的内核大小来有效减小芯片外数据访问,特别对于基于广义矩阵乘法(GEMM)的终端到终端变压器模型推理尤为有益。本研究通过在单核和多核系统中实现和评估提出的加速器驱动的数据排列方法,证明了该方法能够实现高达 2.8 倍的速度提升。
Dec, 2023
采用一种基于统计的权重量化和弹性激活量化的方法实现了第一批三元和双元变压器模型,其在摘要和机器翻译的下游任务中达到了较高的得分,同时比全精度模型高效 16 倍以上。
Jun, 2023
本文介绍了一种用于二进制权重卷积神经网络的加速器,能够在 1.2V 下实现 1510 GOp/s 的运算,且在 0.6V 下消耗 895 μW 的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。
Jun, 2016
大规模基于 transformer 的模型如 BERT,可以转换为针对资源受限边缘设备优化的 FlatBuffer 格式,用于声誉分析等任务,其性能较好且具有隐私保护特性。
Oct, 2023