一款高效稀疏推断软件加速器,用于基于转换器的语言模型在 CPU 上
我们研究了大型语言模型的精确稀疏微调问题,通过引入稀疏权重在专门的任务上微调预训练的语言模型。我们提出了一种称为 SquareHead 的基于 L2 范数的蒸馏方法,能够在高稀疏率下实现准确恢复,并展示了稀疏语言模型在 CPU 和 GPU 执行中的速度提升。
Oct, 2023
本文介绍了一种新的在 CPU 上创建和运行快速 Transformer 模型的流水线,利用硬件感知剪枝、知识蒸馏和量化等模型压缩技术,通过优化稀疏和量化操作库的运行时引擎来提高推理效率,创造了一个 Fast DistilBERT 模型,其通过问题回答 SQuADv1.1 基准测试表现良好,性能比现有的 Neural Magic's DeepSparse 运行时性能提高了高达 50%,比 ONNX 计算时性能提升了最多 4.1 倍。
Oct, 2022
Flash-LLM 是一种针对大型生成模型的低成本高效大规模推断框架,通过优化稀疏矩阵乘法,在高性能 Tensor Cores 上实现了显著的性能提升。
Sep, 2023
提出了 Magicube,这是一个适用于低精度整数的高性能稀疏矩阵库,支持深度学习中的两个主要稀疏操作(SpMM 和 SDDMM)在 Tensor Cores 上的混合精度加速,实验结果显示,相对于供应商优化库,Magicube 平均提高了 1.44 倍(最高提高到 2.37 倍),而且即使精度相当,相对于同类技术,性能也提高了 1.43 倍。
Sep, 2022
本文提出了一种算法 - 软件共同设计的剪枝方法,采用 “分块友好” 的稀疏模式来实现现有的密集结构上的延迟加速,旨在解决原先稀疏模型上由于随机分布权重导致计算不规则的问题,在 GPU 笔记本上成功地实现了 1.95 倍速度提升的优化效果。
Aug, 2020
本文介绍了 DeepSpeed Inference 这一全面的转换模型推断系统解决方案,以解决目前多样化的转换模型在推断时遇到的挑战,包括多 GPU 推断方案,利用 CPU 和 NVMe 内存进行异构推断以及在实时延迟限制下运行万亿级别的推断等,并且可以比 GPU-only 解决方案处理规模大 25 倍的模型,同时提供高吞吐量。
Jun, 2022
为了解决网络规模增大的挑战,研究者通过网络剪枝开发了稀疏模型。然而,在通用计算设备上实现显著加速的同时保持模型准确性仍然是一个未解决的问题。在本文中,我们提出了一种新颖的移动推理加速框架 SparseByteNN,通过利用细粒度的内核稀疏性实现实时执行和高准确性。我们的框架包括两个部分:(a)一种细粒度的内核稀疏模式,其稀疏粒度介于结构化剪枝和非结构化剪枝之间。它为不同操作器设计了多种稀疏模式。结合我们提出的整体网络重新排列策略,该模式同时实现高压缩率和高精度。(b)与稀疏模式共同优化的推理引擎。常理认为,这种理论上的 FLOPs 减少并不能转化为真实世界的效率提升。我们旨在通过引入一族针对 ARM 和 WebAssembly 的高效稀疏内核来纠正这种误解。通过我们对稀疏原语的高效实现,我们展示了 MobileNet-v1 的稀疏版本在效率 - 准确性曲线上胜过性能强大且密集的基线模型。Qualcomm 855 的实验结果表明,对于 30%稀疏的 MobileNet-v1,SparseByteNN 相对于密集版本获得了 1.27 倍的加速,并相对于最先进的稀疏推理引擎 MNN 获得了 1.29 倍的加速,准确性略有下降,下降了 0.224%。SparseByteNN 的源代码将在此 https URL 上提供。
Oct, 2023
通过在计算通用矩阵乘法(GEMM)时考虑激活的最终位置,我们设计了一种稀疏训练过程,以诱导可利用的半结构化激活稀疏性,并在图像分类和目标检测任务中对其进行了广泛评估,结果显示在 ImageNet 数据集上,我们的方法在 ResNet18 模型上实现了 1.25 倍的加速,并仅有 1.1% 的最小精度降低;另外,与先进的结构化剪枝方法相结合,得到的模型在延迟和准确性之间取得了很好的平衡,优于仅采用结构化剪枝技术的模型。
Sep, 2023
本文提出一种基于稀疏矩阵的计算优化方法,通过对深度学习应用中的稀疏矩阵进行深入研究,开发出可用于稀疏矩阵与密集矩阵乘法和采样密集 - 密集矩阵乘法的高性能 GPU 核,实现了神经网络模型的加速和内存节省。
Jun, 2020
研究使用稀疏语言模型替代矢量检索系统来提高推理效率,实验结果表明使用 MSMARCO 数据集,精确度几乎没下降,推理速度最多提高了 4.3 倍。
Mar, 2023