大型语言模型的硬件加速:全面调查与比较
研究了大型语言模型在多个人工智能加速器和图形处理器上的性能特性,并评估了这些模型的性能,考虑到序列长度、扩展行为、稀疏性和梯度积累步骤的敏感性。
Oct, 2023
通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试,本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。
Nov, 2023
通过对大型语言模型的空间加速进行研究,本文介绍了针对特定运算符或层的硬件单元专门化的方法,并通过数据流架构实现它们之间的直接通信,从而最小化片外内存访问延迟。研究通过在AMD Alveo U280 FPGA设备上实现BERT和GPT2模型,实验结果表明相较于之前的FPGA加速器,在BERT模型方面可以实现16.1倍的加速,在GPT生成推理方面,在前置阶段相较于DFX,一个FPGA叠加层,在解码阶段相较于NVIDIA A100 GPU,分别实现2.2倍的加速和5.7倍的能效提升。
Dec, 2023
在人工智能快速发展的领域中,大型语言模型(LLMs)和图处理已经成为自然语言处理(NLP)、计算机视觉和图结构数据应用的变革性技术。本文描述了基于硅光子学的新型硬件加速器,用于加速在LLMs和图神经网络中使用的Transformer神经网络进行图数据处理。我们的分析表明,这两种硬件加速器在吞吐量上至少实现了10.2倍的提升,并且在能源效率上比多个用于LLMs和图处理的最新电子硬件加速器提高了3.8倍。
Jan, 2024
该研究综述了与优化大型语言模型性能和能源效率相关的硬件加速器,涵盖了多种加速器的体系结构、性能指标和能源效率考虑,并为研究人员、工程师和决策者在现实应用中优化大型语言模型的部署提供了有价值的见解。
Jan, 2024
机器学习中的Transformers引领了一场革命,但由于其运行时要求,不能广泛用于移动设备。该研究通过创建自动化基础设施MELT来评估大型语言模型在移动设备上的执行情况,并对性能、能效和准确性进行了量化。结果表明,移动设备的执行存在性能差异,LLM的执行主要受内存限制。量化可以显著减少内存需求,但会带来一定的准确性损失。同时,作者认为生态系统仍处于初级阶段,并预测NPU加速和框架设备协同设计是实现有效独立执行的最佳选择。
Mar, 2024
大型语言模型的推出带来了自然语言处理领域的重大变革,本文调查了与转换器模型有关的各种CIM构架以及它们如何解决现代人工智能计算系统面临的挑战。
Jun, 2024
该研究综述了针对大型语言模型(LLMs)的挑战以及提高系统效率的最新进展和研究方向,包括算法级加速技术、LLM硬件与软件协同设计策略、LLMs加速器编译方法以及利用LLMs辅助电路设计的方法。通过这些工作,旨在为LLMs在各种应用中实现更高效、可扩展的部署铺平道路。
Jun, 2024
本研究针对日益复杂的硬件设计需求,探索大语言模型(LLMs)在高级综合(HLS)过程中的潜力,填补了当前方法的空白。通过对比使用标准HLS工具与LLMs生成的Verilog设计,评估其在性能、功耗和资源利用率方面的影响,提出了LLMs在硬件设计中的应用前景,特别是在人工智能加速、嵌入式系统和高性能计算领域。
Aug, 2024
本研究针对设备受限环境下运行大型语言模型(LLMs)面临的挑战进行了深入分析,提出了高效架构及压缩技术等创新解决方案。研究发现,通过硬件加速和边缘云协作方式,可以在性能与资源利用之间实现微妙平衡,为未来基于设备的智能计算发展提供了重要指导。重要性在于解决资源限制问题,同时实现个性化和适应性学习。
Aug, 2024