HeTraX:用于变压器加速的能源高效三维异构多核架构
本文介绍了一种FPGA加速神经网络评估的异构计算系统,通过利用DSP和LUT的不同资源优势进行计算。作者运用强化学习算法对系统进行优化,使得该系统在减少延迟的同时提高了精度表现。
Dec, 2021
本文调查了提高Transformer模型推理效率的不同方法,包括分析现有模型架构的瓶颈和硬件设计的影响,调度操作的挑战,以及通过神经网络架构搜索来优化Transformer模型等研究方向。最后,作者将这些方法应用于一个开源的全栈DNN加速器生成器中,并表明这些方法都可以对提高模型推理速度产生影响,其中最优的全栈设计方法可以将速度提高多达88.7倍,同时性能基本不受损害
Feb, 2023
该论文提出了ITA,一种新颖的加速器架构,用于Transformer模型和相关模型的高效推理,通过利用8位量化和一种仅操作整数值的创新softmax实现,在嵌入式系统上实现了低功耗和高效能。ITA在能效上与最先进的Transformer加速器相媲美,达到16.9 TOPS/W,而在面积效率方面以22纳米完全耗尽硅上绝缘体技术满足0.8 V下的每平方毫米5.93 TOPS/mm²的性能。
Jul, 2023
提出了一种新颖的内存数据排列策略,通过硬件加速器的内核大小来有效减小芯片外数据访问,特别对于基于广义矩阵乘法(GEMM)的终端到终端变压器模型推理尤为有益。本研究通过在单核和多核系统中实现和评估提出的加速器驱动的数据排列方法,证明了该方法能够实现高达2.8倍的速度提升。
Dec, 2023
本研究使用Vision Transformer模型结合近似计算方法分析了在低功耗设备上实现Transformer模型的计算要求和性能之间的折衷,并提出了使用蒙特卡洛树搜索算法生成Vision Transformer模型的近似加速器的方法,从而在不损失性能的前提下实现了显著的功耗优化。
Feb, 2024
在大规模语言模型中使用图形处理单元 (GPUs) 作为硬件加速器,但是因为能源消耗大、运营成本高以及对边缘计算不适用等问题,我们开发了一种用于transformers的加速器LLama 2,通过高级综合 (HLS) 来在FPGAs上进行原型设计。使用HLS的方法能够实现对Intel Xeon Broadwell E5-2686 v4 CPU和NVIDIA RTX 3090 GPU相比,Xilinx Virtex UltraScale+ VU9P FPGA每个标记使用的能量减少了12.75倍和8.25倍,同时相对于CPU的推理速度提高了2.46倍,相对于RTX 3090 GPU的速度保持在0.53倍。我们开源了代码并记录了合成的步骤,希望这项工作能够推动FPGAs在transformer推理中的广泛应用,并激发对于能效推理方法的研究。
Apr, 2024
我们提出了一种算法、硬件和联合优化的协同设计方法,用于实现Transformer在边缘设备上的高效部署。通过优化的二值化Transformer架构、定点化方法以及专用加速器,我们实现了模型的准确性和效率的良好平衡,从而在真实环境中实现了高效的边缘部署。
Jul, 2024
通过使用 PIM/NMC 架构以及利用新型的 in-DRAM 金属-金属电容器支持随机计算和时间模拟累加,我们提出了 ARTEMIS,一个用于 Transformer 模型的混合模拟-随机的 in-DRAM 加速器,通过对传统 DRAM 数组进行最小化改变,ARTEMIS 在执行 Transformer 模型时高效地减轻了相关成本,相较于 GPU、TPU、CPU 和先进的 PIM Transformer 硬件加速器,ARTEMIS 达到了至少 3.0 倍的加速、1.8 倍低能量消耗以及 1.9 倍更好的能效。
Jul, 2024
本研究解决了大型语言模型(LLMs)加速的技术比较难题,特别是在不同硬件平台之间的公平性问题。论文通过研究各类硬件加速器的框架,并在同一技术基础上对其性能和能效进行外推,以提供更公正的比较。研究结果有助于推动硬件加速器在自然语言处理中的应用和优化。
Sep, 2024