HeTraX：用于变压器加速的能源高效三维异构多核架构

Aug, 2024

HeTraX：用于变压器加速的能源高效三维异构多核架构

HeTraX: Energy Efficient 3D Heterogeneous Manycore Architecture for Transformer Acceleration

Pratyush Dhingra, Janardhan Rao Doppa, Partha Pratim Pande

TL;DR该研究针对变压器模型加速的硬件设计难题，提出了一种专门优化的三维异构架构HeTraX。通过与变压器的计算内核对齐的硬件资源，HeTraX显著提升了速度（最高提升5.6倍）和能效（EDP提升14.5倍），同时确保了热可行性。

Abstract

Transformers have revolutionized deep learning and generative modeling to enable unprecedented advancements in natural language processing tasks and beyond. However, designing hardware accelerators for executing Transformer models is challenging due to the wide variety of computing ker

发现论文，激发创造

高效Transformer：综述

本研究总结了多个领域的最新端到端基于Transformer模型的X-former模型，强调了计算和内存效率

Sep, 2020

N3H-Core: 神经元设计的基于FPGA的异构计算核心神经网络加速器

本文介绍了一种FPGA加速神经网络评估的异构计算系统，通过利用DSP和LUT的不同资源优势进行计算。作者运用强化学习算法对系统进行优化，使得该系统在减少延迟的同时提高了精度表现。

Dec, 2021

Transformer 推理的全栈优化：一项调查

本文调查了提高Transformer模型推理效率的不同方法，包括分析现有模型架构的瓶颈和硬件设计的影响，调度操作的挑战，以及通过神经网络架构搜索来优化Transformer模型等研究方向。最后，作者将这些方法应用于一个开源的全栈DNN加速器生成器中，并表明这些方法都可以对提高模型推理速度产生影响，其中最优的全栈设计方法可以将速度提高多达88.7倍，同时性能基本不受损害

Feb, 2023

针对量化Transformer的高能效注意力和Softmax加速器

该论文提出了ITA，一种新颖的加速器架构，用于Transformer模型和相关模型的高效推理，通过利用8位量化和一种仅操作整数值的创新softmax实现，在嵌入式系统上实现了低功耗和高效能。ITA在能效上与最先进的Transformer加速器相媲美，达到16.9 TOPS/W，而在面积效率方面以22纳米完全耗尽硅上绝缘体技术满足0.8 V下的每平方毫米5.93 TOPS/mm²的性能。

Jul, 2023

加速器驱动的数据排列在多核架构上最小化变压器运行时间

提出了一种新颖的内存数据排列策略，通过硬件加速器的内核大小来有效减小芯片外数据访问，特别对于基于广义矩阵乘法（GEMM）的终端到终端变压器模型推理尤为有益。本研究通过在单核和多核系统中实现和评估提出的加速器驱动的数据排列方法，证明了该方法能够实现高达2.8倍的速度提升。

Dec, 2023

TransAxx: 高效逼近计算的Transformer

本研究使用Vision Transformer模型结合近似计算方法分析了在低功耗设备上实现Transformer模型的计算要求和性能之间的折衷，并提出了使用蒙特卡洛树搜索算法生成Vision Transformer模型的近似加速器的方法，从而在不损失性能的前提下实现了显著的功耗优化。

Feb, 2024

HLSTransform: 基于高层次综合的 FPGA 上能效优化的 Llama 2 推断

在大规模语言模型中使用图形处理单元 (GPUs) 作为硬件加速器，但是因为能源消耗大、运营成本高以及对边缘计算不适用等问题，我们开发了一种用于transformers的加速器LLama 2，通过高级综合 (HLS) 来在FPGAs上进行原型设计。使用HLS的方法能够实现对Intel Xeon Broadwell E5-2686 v4 CPU和NVIDIA RTX 3090 GPU相比，Xilinx Virtex UltraScale+ VU9P FPGA每个标记使用的能量减少了12.75倍和8.25倍，同时相对于CPU的推理速度提高了2.46倍，相对于RTX 3090 GPU的速度保持在0.53倍。我们开源了代码并记录了合成的步骤，希望这项工作能够推动FPGAs在transformer推理中的广泛应用，并激发对于能效推理方法的研究。

Apr, 2024

协同设计二进制化Transformer和硬件加速器以实现高效的端到端边缘部署

我们提出了一种算法、硬件和联合优化的协同设计方法，用于实现Transformer在边缘设备上的高效部署。通过优化的二值化Transformer架构、定点化方法以及专用加速器，我们实现了模型的准确性和效率的良好平衡，从而在真实环境中实现了高效的边缘部署。

Jul, 2024

ARTEMIS：Transformer神经网络的混合模拟-随机In-DRAM加速器

通过使用 PIM/NMC 架构以及利用新型的 in-DRAM 金属-金属电容器支持随机计算和时间模拟累加，我们提出了 ARTEMIS，一个用于 Transformer 模型的混合模拟-随机的 in-DRAM 加速器，通过对传统 DRAM 数组进行最小化改变，ARTEMIS 在执行 Transformer 模型时高效地减轻了相关成本，相较于 GPU、TPU、CPU 和先进的 PIM Transformer 硬件加速器，ARTEMIS 达到了至少 3.0 倍的加速、1.8 倍低能量消耗以及 1.9 倍更好的能效。

Jul, 2024

大型语言模型的硬件加速：全面调查与比较

本研究解决了大型语言模型（LLMs）加速的技术比较难题，特别是在不同硬件平台之间的公平性问题。论文通过研究各类硬件加速器的框架，并在同一技术基础上对其性能和能效进行外推，以提供更公正的比较。研究结果有助于推动硬件加速器在自然语言处理中的应用和优化。

Sep, 2024