协同设计二进制化Transformer和硬件加速器以实现高效的端到端边缘部署
本研究系统研究了协同设计神经网络架构和硬件加速器的重要性和策略,发现不同的使用场景会导致非常不同的搜索结果,研究表明联合搜索方法在所有延迟目标上始终优于以前的面向平台的神经体系结构搜索、手动设计的模型和最先进的EfficientNet,可将边缘加速器的能源消耗降低高达2倍。
Feb, 2021
本文调查了提高Transformer模型推理效率的不同方法,包括分析现有模型架构的瓶颈和硬件设计的影响,调度操作的挑战,以及通过神经网络架构搜索来优化Transformer模型等研究方向。最后,作者将这些方法应用于一个开源的全栈DNN加速器生成器中,并表明这些方法都可以对提高模型推理速度产生影响,其中最优的全栈设计方法可以将速度提高多达88.7倍,同时性能基本不受损害
Feb, 2023
本文提出了SwiftTron,这是一种高效的专用硬件加速器,旨在支持量化Transformer的不同类型操作,并考虑了各种缩放因子以进行正确的计算,在65纳米CMOS技术中,RoBERTa-base模型的加速器在1.83纳秒内执行,同时消耗33.64 mW的功率,占用273平方毫米的面积,可以缓解Transformers在资源受限的EdgeAI / tinyML设备上部署的挑战。
Apr, 2023
该论文提出了ITA,一种新颖的加速器架构,用于Transformer模型和相关模型的高效推理,通过利用8位量化和一种仅操作整数值的创新softmax实现,在嵌入式系统上实现了低功耗和高效能。ITA在能效上与最先进的Transformer加速器相媲美,达到16.9 TOPS/W,而在面积效率方面以22纳米完全耗尽硅上绝缘体技术满足0.8 V下的每平方毫米5.93 TOPS/mm²的性能。
Jul, 2023
提出了一种新颖的内存数据排列策略,通过硬件加速器的内核大小来有效减小芯片外数据访问,特别对于基于广义矩阵乘法(GEMM)的终端到终端变压器模型推理尤为有益。本研究通过在单核和多核系统中实现和评估提出的加速器驱动的数据排列方法,证明了该方法能够实现高达2.8倍的速度提升。
Dec, 2023
通过优化计算顺序和引入高度并行性和高速的QMM引擎,本文提出了一种基于二进制Transformer的能效较高的加速器BETA,实验证明,BETA在边缘部署中能够实现174 GOPS/W的平均能效,比之前基于FPGA的加速器高出1.76~21.92倍,显示了BETA在边缘Transformer加速方面的巨大潜力。
Jan, 2024
本研究提出了一种在商业微控制器上对Transformer模型进行端到端部署的优化框架,通过优化库和新的推理调度方案,在多个MCU平台上实现了更低的延迟和能量消耗。
Apr, 2024
通过在边缘环境中利用众多具备空闲资源的边缘设备,提出 Galaxy 协同式边缘人工智能系统,使用混合模型并行和异构感知并行规划来高效加速 Transformer 推理,实现边缘计算中最多 2.5 倍的端到端延迟缩减。
May, 2024
本文介绍了一种为AIoT系统中的设备端时间序列预测而优化的Transformer硬件加速器的设计,它结合了整数量化和量化感知训练与优化的硬件设计,实现了6位和4位量化的Transformer模型,其精度与相关研究中的8位量化模型可比。通过在嵌入式FPGA(Xilinx Spartan-7 XC7S15)上进行完整的实现,我们考察了在嵌入式IoT设备上部署Transformer模型的可行性。我们的结果表明,虽然可以达到足够的性能,但优化过程并不简单。与相关研究中的8位量化Transformer模型相比,我们的4位量化Transformer模型仅增加0.63%的测试损失,运行速度高达132.33倍,能耗减少48.19倍。
Jul, 2024
该研究针对变压器模型加速的硬件设计难题,提出了一种专门优化的三维异构架构HeTraX。通过与变压器的计算内核对齐的硬件资源,HeTraX显著提升了速度(最高提升5.6倍)和能效(EDP提升14.5倍),同时确保了热可行性。
Aug, 2024