在 ARM 设备上快速推理树集合

May, 2023

Fast Inference of Tree Ensembles on ARM Devices

Simon Koschel, Sebastian Buschjäger, Claudio Lucchese, Katharina Morik

TL;DR本文研究基于 ARM CPU 的机器学习模型评价问题，并发现使用固定点量化方法可以在几乎所有情况下提高速度，同时对模型预测性能影响可以忽略不计。

Abstract

With the ongoing integration of machine learning models into everyday life, e.g. in the form of the Internet of Things (IoT), the evaluation of learned models becomes more and more an important issue. tree ensembles

machine learning tree ensembles arm cpus quantization fixed-point

发现论文，激发创造

面向物联网边缘节点的动态决策树集成能效推理

本文针对物联网设备上的机器学习模型能源消耗较大的问题，提出了一种基于决策树集成的动态集成算法，在保证准确率不降低的情况下，显著降低了能耗。

Jun, 2023

登记你的森林：通过显式 CPU 寄存器分配的决策树集成优化

通过一种代码生成方法来为决策树集成模型分配寄存器，从而在单个转换步骤中直接生成机器汇编代码，使决策树集成模型的推理性能得到显著提高。

Apr, 2024

采用超低比特量化和运行时技术加速在 Arm CPU 上的深度学习模型推理

介绍了 Deeplite Neutrino 以及 Deeplite Runtime 来优化深度学习模型，并在 Arm-based 平台上部署超低比特量化模型。使用向量化，并行化和瓦片化高效实现，这些实现与 TensorFlow Lite 比较，分类和检测模型的速度提高了 2 倍和 2.2 倍，与 ONNX Runtime 比较，分类和检测模型的速度提高了 5 倍和 3.2 倍。

Jul, 2022

TREE：树正则化用于高效执行

通过奖励不均匀概率分布来减少决策树路径长度，优化决策树的内存架构感知实现以降低执行时间。

Jun, 2024

高效学习排序的神经网络压缩模型

本研究介绍了一种将蒸馏、修剪和快速矩阵乘法相结合的方法，对于从回归树集合中学习的神经网络进行了评分时间的加速，在两个公共学习排名数据集上进行的全面实验表明，采用我们的新方法产生的神经网络在效率 - 效用平衡的任何点上与基于树的集合竞争对手具有相同的排名质量，并提供高达 4 倍的评分时间加速，而不影响排名质量。

Feb, 2022

在一个开源的 RISC-V 多微核平台上优化基础模型推理

通过实现分布式 Softmax 原语并利用 ISA 扩展进行 SIMD 浮点操作数流和指令重复，以及专门的 DMA 引擎来最小化昂贵的主内存访问和容忍其延迟，在开源的 RISC-V 平台上呈现了第一批全流程的 Transformer 模型推理结果。对于仅编码器模型，我们展示了最优实现与基线版本之间高达 12.8 倍的加速比；同时在 HW 平台上实现可比较的计算单位吞吐量，FPU 利用率超过 79％和 294 GFLOPS/W，并比 SoA 加速器实现 2 倍以上的性能。对于仅解码器模型，与基线实现相比，在非自回归（NAR）模式下实现 16.1 倍的加速，而在自回归（AR）模式下实现高达 35.6 倍的加速。与最佳 SoA 专用加速器相比，我们实现了高 2.04 倍的 FPU 利用率。

May, 2024

计算最优树集合

提出了两种新算法以及相应的下限，适用于树集合，展示了决策树和树集合分类训练数据集所需的切割数相比，随着树的数量增加，集合所需的切割数可能会指数级下降。

Jun, 2023

神经网络的量化和训练，用于高效的整数运算推理

本文提出了一种量化方案，通过整数运算进行推断，以提高在移动设备上的效率，并设计了一种训练程序来维护量化后的模型精度。该方案在 MobileNets 模型中展现了显著的改进，在 ImageNet 分类和 COCO 检测等任务上获得了良好的结果。

Dec, 2017

量子化神经网络的简化部署

本论文介绍了一种将 QNN 推理操作转换为整数推理操作的流程，以及一些基于比特串处理技术的方法，以常见的按位操作有效地部署 QNN。作者展示了 QNN 在移动 CPU 上的潜力，并提供了一个比特串矩阵乘法库。

Sep, 2017

混合特征空间已知约束条件下的贝叶斯优化树集成核函数

本文提出采用树集成的核解释作为高斯过程先验以获得模型方差估计，并开发了与采集函数兼容的优化公式来同时解决使用树集成进行黑盒优化的两个主要挑战，从而在连续 / 离散特征以及混合特征的空间中，优于竞争方法。

Jul, 2022