AI加速器上基础模型的推理优化
研究表明,即使较小的Transformer模型在每次迭代中执行更快,较宽且较深的模型在明显更少的步骤中收敛。此外,大型模型比小型模型更 robust,因此,高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性
Feb, 2020
该研究旨在提高Transformers模型的生成推理效率,并通过多维分区技术、低级优化等策略获得较佳的推理效率和FLOPS利用率权衡,从而支持Token的大批量处理和长文本生成。
Nov, 2022
本文介绍了一种新的在CPU上创建和运行快速Transformer模型的流水线,利用硬件感知剪枝、知识蒸馏和量化等模型压缩技术,通过优化稀疏和量化操作库的运行时引擎来提高推理效率,创造了一个Fast DistilBERT模型,其通过问题回答SQuADv1.1基准测试表现良好,性能比现有的Neural Magic's DeepSparse运行时性能提高了高达50%,比ONNX计算时性能提升了最多4.1倍。
Oct, 2022
本论文提出了一种基于定常块大小的高效稀疏深度学习推断软件堆栈,可以将稀疏加速器应用于Transformer-based语言模型,我们的稀疏加速器在处理各种GEMM形状时,比现有的稀疏库快一个数量级,在Xeon上具有高效的性能。
Jun, 2023
研究了大型语言模型在多个人工智能加速器和图形处理器上的性能特性,并评估了这些模型的性能,考虑到序列长度、扩展行为、稀疏性和梯度积累步骤的敏感性。
Oct, 2023
该研究论文主要针对基于Transformer的大型语言模型的长上下文能力进行了模型架构的改进,并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。
Nov, 2023
通过跳过Transformer LLMs中后面的attention子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在Llama 2 7B上观察到21%的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性能。
Apr, 2024
通过部署批处理技术和资源有限的边缘设备上的模型量化,我们在此论文中提出了一种针对基于Transformer解码器的大语言模型推断的边缘智能优化问题,旨在通过批处理调度和通信、计算资源的联合分配来最大化推断吞吐量,同时考虑边缘资源约束和不同用户对延迟和准确性的需求。为了解决这个NP-hard问题,我们开发了一种在可行时间复杂度内运行的带有在线树剪枝的最优深度优先搜索算法(DFTSP)。模拟结果表明,DFTSP在各种用户设置和量化技术中超越了其他批处理基准,并且与蛮力搜索方法相比,它的时间复杂度降低了45%以上。
May, 2024
通过实现分布式Softmax原语并利用ISA扩展进行SIMD浮点操作数流和指令重复,以及专门的DMA引擎来最小化昂贵的主内存访问和容忍其延迟,在开源的RISC-V平台上呈现了第一批全流程的Transformer模型推理结果。对于仅编码器模型,我们展示了最优实现与基线版本之间高达12.8倍的加速比;同时在HW平台上实现可比较的计算单位吞吐量,FPU利用率超过79%和294 GFLOPS/W,并比SoA加速器实现2倍以上的性能。对于仅解码器模型,与基线实现相比,在非自回归(NAR)模式下实现16.1倍的加速,而在自回归(AR)模式下实现高达35.6倍的加速。与最佳SoA专用加速器相比,我们实现了高2.04倍的FPU利用率。
May, 2024
大型语言模型的推出带来了自然语言处理领域的重大变革,本文调查了与转换器模型有关的各种CIM构架以及它们如何解决现代人工智能计算系统面临的挑战。
Jun, 2024