在 ARM 设备上快速推理树集合
通过一种代码生成方法来为决策树集成模型分配寄存器,从而在单个转换步骤中直接生成机器汇编代码,使决策树集成模型的推理性能得到显著提高。
Apr, 2024
介绍了 Deeplite Neutrino 以及 Deeplite Runtime 来优化深度学习模型,并在 Arm-based 平台上部署超低比特量化模型。使用向量化,并行化和瓦片化高效实现,这些实现与 TensorFlow Lite 比较,分类和检测模型的速度提高了 2 倍和 2.2 倍,与 ONNX Runtime 比较,分类和检测模型的速度提高了 5 倍和 3.2 倍。
Jul, 2022
本研究介绍了一种将蒸馏、修剪和快速矩阵乘法相结合的方法,对于从回归树集合中学习的神经网络进行了评分时间的加速,在两个公共学习排名数据集上进行的全面实验表明,采用我们的新方法产生的神经网络在效率 - 效用平衡的任何点上与基于树的集合竞争对手具有相同的排名质量,并提供高达 4 倍的评分时间加速,而不影响排名质量。
Feb, 2022
通过实现分布式 Softmax 原语并利用 ISA 扩展进行 SIMD 浮点操作数流和指令重复,以及专门的 DMA 引擎来最小化昂贵的主内存访问和容忍其延迟,在开源的 RISC-V 平台上呈现了第一批全流程的 Transformer 模型推理结果。对于仅编码器模型,我们展示了最优实现与基线版本之间高达 12.8 倍的加速比;同时在 HW 平台上实现可比较的计算单位吞吐量,FPU 利用率超过 79%和 294 GFLOPS/W,并比 SoA 加速器实现 2 倍以上的性能。对于仅解码器模型,与基线实现相比,在非自回归(NAR)模式下实现 16.1 倍的加速,而在自回归(AR)模式下实现高达 35.6 倍的加速。与最佳 SoA 专用加速器相比,我们实现了高 2.04 倍的 FPU 利用率。
May, 2024
本文提出了一种量化方案,通过整数运算进行推断,以提高在移动设备上的效率,并设计了一种训练程序来维护量化后的模型精度。该方案在 MobileNets 模型中展现了显著的改进,在 ImageNet 分类和 COCO 检测等任务上获得了良好的结果。
Dec, 2017
本论文介绍了一种将 QNN 推理操作转换为整数推理操作的流程,以及一些基于比特串处理技术的方法,以常见的按位操作有效地部署 QNN。作者展示了 QNN 在移动 CPU 上的潜力,并提供了一个比特串矩阵乘法库。
Sep, 2017
本文提出采用树集成的核解释作为高斯过程先验以获得模型方差估计,并开发了与采集函数兼容的优化公式来同时解决使用树集成进行黑盒优化的两个主要挑战,从而在连续 / 离散特征以及混合特征的空间中,优于竞争方法。
Jul, 2022