BETA: 边缘二值化能效优化的 Transformer 加速器

Jan, 2024

BETA: 边缘二值化能效优化的 Transformer 加速器

BETA: Binarized Energy-Efficient Transformer Accelerator at the Edge

Yuhao Ji, Chao Fang, Zhongfeng Wang

TL;DR通过优化计算顺序和引入高度并行性和高速的 QMM 引擎，本文提出了一种基于二进制 Transformer 的能效较高的加速器 BETA，实验证明，BETA 在边缘部署中能够实现 174 GOPS/W 的平均能效，比之前基于 FPGA 的加速器高出 1.76~21.92 倍，显示了 BETA 在边缘 Transformer 加速方面的巨大潜力。

Abstract

Existing binary transformers are promising in edge deployment due to their compact model size, low computational complexity, and considerable inference accuracy.However, deploying →

binary transformers computation flow abstraction method beta energy efficiency edge deployment

发现论文，激发创造

BiT: 坚固的二值化多蒸馏 Transformer

本文提出一种改进的二元转换器方法，通过引入一种新型的弹性二元激活函数、两种二元化方案以及一种逐步压缩高精度模型的方法，实现了在实际精度水平下的完全二元化转换模型，并在 GLUE 语义理解基准测试上取得了接近完全精度 BERT 基线的成果。

May, 2022

SwiftTron: 用于量化 Transformer 的高效硬件加速器

本文提出了 SwiftTron，这是一种高效的专用硬件加速器，旨在支持量化 Transformer 的不同类型操作，并考虑了各种缩放因子以进行正确的计算，在 65 纳米 CMOS 技术中，RoBERTa-base 模型的加速器在 1.83 纳秒内执行，同时消耗 33.64 mW 的功率，占用 273 平方毫米的面积，可以缓解 Transformers 在资源受限的 EdgeAI /tinyML 设备上部署的挑战。

Apr, 2023

基于二次幂量化的神经网络能效硬件加速

通过使用二次幂量化和基于位移乘累加运算代替传统的乘累加运算，以及基于对数量化的新型剪枝方法，本文在基于 Zynq UltraScale + MPSoC ZCU104 SoC FPGA 的硬件神经网络加速器中实现了 Power-of-Two (PoT) 权重，实现了至少 $1.4x$ 的能效提升。

Sep, 2022

针对量化 Transformer 的高能效注意力和 Softmax 加速器

该论文提出了 ITA，一种新颖的加速器架构，用于 Transformer 模型和相关模型的高效推理，通过利用 8 位量化和一种仅操作整数值的创新 softmax 实现，在嵌入式系统上实现了低功耗和高效能。ITA 在能效上与最先进的 Transformer 加速器相媲美，达到 16.9 TOPS/W，而在面积效率方面以 22 纳米完全耗尽硅上绝缘体技术满足 0.8 V 下的每平方毫米 5.93 TOPS/mm² 的性能。

Jul, 2023

二值化神经机器翻译

本文提出了一种新的二值化技术，基于一位权重和激活函数的 Transformer 应用于机器翻译，实验证明其可以达到与浮点型 Transformer 相同的质量，同时大小只有其 16 倍，并通过额外的 LayerNorms 和残差连接改进了二值化的质量。此外，作者在生产规模的翻译数据集上进行了一项标尺研究，表明一位权重 Transformer 在域内和域外环境下均具有可扩展性和良好的泛化效果。

Feb, 2023

面向设备的神经机器翻译的极低比特 Transformer 量化

本研究提出一种混合精度量化策略，将 Transformer 权重表示为极低位数（例如小于 3 位），该压缩策略使得在设备上实现高效的神经机器翻译变得可行，实现了模型大小 11.8 倍的减小，内存占用减少 8.3 倍，速度提高 3.5 倍，同时 BLEU 低于 - 0.5。

Sep, 2020

加速器驱动的数据排列在多核架构上最小化变压器运行时间

提出了一种新颖的内存数据排列策略，通过硬件加速器的内核大小来有效减小芯片外数据访问，特别对于基于广义矩阵乘法（GEMM）的终端到终端变压器模型推理尤为有益。本研究通过在单核和多核系统中实现和评估提出的加速器驱动的数据排列方法，证明了该方法能够实现高达 2.8 倍的速度提升。

Dec, 2023

二元和三元自然语言生成

采用一种基于统计的权重量化和弹性激活量化的方法实现了第一批三元和双元变压器模型，其在摘要和机器翻译的下游任务中达到了较高的得分，同时比全精度模型高效 16 倍以上。

Jun, 2023

YodaNN: 超低功耗二进制卷积神经网络加速架构

本文介绍了一种用于二进制权重卷积神经网络的加速器，能够在 1.2V 下实现 1510 GOp/s 的运算，且在 0.6V 下消耗 895 μW 的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。

Jun, 2016

边缘设备上的量化 Transformer 语言模型实现

大规模基于 transformer 的模型如 BERT，可以转换为针对资源受限边缘设备优化的 FlatBuffer 格式，用于声誉分析等任务，其性能较好且具有隐私保护特性。

Oct, 2023