SparseTIR: 深度学习稀疏编译可组合抽象
该论文介绍了 TensorIR 编译器抽象,用于优化具有张量计算原语的程序,通过 TensorIR 编译可以自动化优化深度学习模型,实验结果表明 TensorIR 编译使用特定的硬件后端的张量计算原语,并在各平台上提供了与手动优化系统相当的性能竞争力。
Jul, 2022
硬件专业化的趋势导致在处理稀疏工作负载时越来越多地使用自定义数据格式,而现有的稀疏张量编程模型和编译器对自定义格式的支持很少或没有。为了克服这个缺陷,我们提出了 UniSparse,它是一种提供统一抽象的中间语言,用于表示和自定义稀疏格式。与现有的基于属性的框架不同,UniSparse 将稀疏张量的逻辑表示(即数据结构)与其底层内存布局解耦,从而实现了两者的自定义。通过实验,我们证明了我们的方法在多种不同的硬件目标上运行常用的稀疏线性代数操作与专门格式的有效性,包括 Intel CPU、NVIDIA GPU、AMD Xilinx FPGA 和模拟的内存中处理(PIM)设备。
Mar, 2024
TorchSparse++ 是一个新的 GPU 库,通过高效的稀疏卷积内核生成器和稀疏自动调整器,能够以极低的工程成本实现高性能的稀疏卷积计算,并在推理和训练任务中实现了显著的加速。
Oct, 2023
本文介绍 TorchSparse,一种高效的基于 GPU 加速的稀疏卷积计算引擎,应用于 AR/VR、自动驾驶等方面。通过采用自适应矩阵乘法分组技术和集成向量化、量化及融合的本地化优化存储访问技术,实现了 1.4-1.5 倍的速度提升和 2.7 倍的内存移动代价降低,相较当前最优方法 MinkowskiEngine 和 SpConv,分别实现了 1.6 倍和 1.5 倍的整体加速效果。
Apr, 2022
本文介绍了一种基于 unstructured sparsity 的 code generator - SparseRT,通过对于 1x1 convolutions 以及 fully connected layers 进行计算,该方法相对于 equivalent dense computation 速度提升了 3.4x 至 5.4x,同时处理 ResNet-50 的 sparse 3x3 convolutions 取得了 5x 的速度提升,能够有效地加速 GPU 上的深度学习操作。
Aug, 2020
STen 是一种基于 PyTorch 的稀疏编程模型和接口,支持几乎所有稀疏化方法,使深度学习模型具有高性能和易用性,特别是在训练过程中的稀疏化。
Apr, 2023
本论文提出了一种基于定常块大小的高效稀疏深度学习推断软件堆栈,可以将稀疏加速器应用于 Transformer-based 语言模型,我们的稀疏加速器在处理各种 GEMM 形状时,比现有的稀疏库快一个数量级,在 Xeon 上具有高效的性能。
Jun, 2023
本论文综述了利用稀疏度、大小缩减和张量量化压缩超参数化模型以提高 ML 模型效率的方法,并分析了在硬件加速器上加速处理的机会和挑战,其中包括加速器系统的增强模块以支持其高效计算、不同硬件设计和加速技术、可实现 DNN 的加速、结构化稀疏度如何提高存储效率和平衡计算以及在加速器上如何编译和映射具有稀疏张量的模型的设计趋势。
Jul, 2020
Scorch 是一个能够无缝集成高效稀疏张量计算到 PyTorch 生态系统的库,通过自动化关键优化,实现了在多个领域的深度学习模型中 1.05-5.78 倍的速度提升,为扩展深度学习和开发其他稀疏库提供了有价值的工具。
May, 2024
通过张量近似和结构分解的方法,该研究提出了一种软件框架(TASDER),以更好地支持硬件加速稀疏深度神经网络,并在能耗延迟乘积上平均提升了 83% 至 74%。
Mar, 2024