利用分治原则提高机器学习推理性能

Jan, 2023

利用分治原则提高机器学习推理性能

Improving Inference Performance of Machine Learning with the Divide-and-Conquer Principle

Alex Kogan

TL;DR本文探讨了在 CPU 上部署机器学习模型的缩放问题，提出了一种基于分而治之原则的简单而有效的方法来解决这个实际重要的问题，在 OnnxRuntime 框架中实施并用几个用例来评估其有效性，包括用于 OCR 和 NLP 的著名模型。

Abstract

Many popular machine learning models scale poorly when deployed on CPUs. In this paper we explore the reasons why and propose a simple, yet effective approach based on the well-known divide-and-conquer principle

machine learning cpu divide-and-conquer principle parallel computing onnxruntime framework

发现论文，激发创造

在 CPU 上加速大型语言模型的推断

利用 CPU 加速大型语言模型推理的并行化方法提高吞吐量，通过利用现代 CPU 体系结构的并行处理能力和批处理推理请求，与多个工作程序在同一设备上运行以进行更多的吞吐量改进，可以减少 LLM 的功耗约 48.9％，并提供具备生产环境的吞吐量和延迟。

Mar, 2024

分治网络

该论文介绍了基于观察输入输出对的算法任务的学习方法，使用分而治之的思想创建了递归动态定义的神经网络结构来优化计算复杂度，并成功应用于凸包，聚类等多项组合问题的求解。

Nov, 2016

分治合并：一种新的概率编程随机支持推断策略

我们提出了新的推理框架：分治合并，并将其实现为自动化通用的概率编程系统推理引擎。在三个示例上，我们通过实验证明了这种方法相较于现有方法在处理支持度具有变化的非标准模型时的表现有了显著提高。

Oct, 2019

基于 CPU 的深度学习模型：高效训练的方法论

本文提出了一种在 Intel CPU 上优化深度学习模型训练的方法和工具集 ProfileDNN 以及一个任务优化方法，旨在解决在选择适当硬件时成本和效率之间的权衡问题，并通过几个案例研究探讨了如何使用 ProfileDNN 和 Intel PyTorch 扩展来优化模型训练。

Jun, 2022

优化 CPU 上 CNN 模型的推理

本研究提出了一种名为 'NeoCPU' 的综合方法，通过对模板进行优化实现卷积神经网络模型的 CPU 推理，而不是依赖第三方库来实现模型图的单独操作优化，从而通过操作级别和图级别同时优化来进一步提高性能。实验结果表明，与当前各种流行 CPU 上的最先进实现相比，NeoCPU 的卷积神经网络模型推理延迟可降低 3.45 倍。

Sep, 2018

利用分治神经网络学习语法

本研究提出了一种分而治之的迭代投影方法，用于上下文无关文法推断。相对于大多数自然语言处理模型，我们的方法只需要相对较少的离散参数，使得学习到的文法可以直接解释。此外，我们的方法可以从极少的语料中推断出有意义的语法规则。我们演示了几种应用该方法的方式：从头开始分类词汇和推断语法，使用现有文法并细化其类别和规则，以及在遇到新数据中的新词汇时扩展现有的文法词汇。

Jan, 2022

异构移动处理器上的深度学习推理：潜力与陷阱

在资源受限的移动设备上部署计算密集型的深度学习模型以实现实时智能应用的需求与日俱增，在各种处理单元（如 CPU、GPU 和 NPU）的支持下，移动设备有潜力通过在异构处理器之间进行并行执行来加速深度学习推理。本文通过精心设计的实验，涵盖了各种深度学习模型、移动软件 / 硬件环境、工作负载模式和资源可用性，综合性地评估了在异构移动处理器上进行并行深度学习推理的能力和挑战，并确定了现有技术的局限性，并强调了跨层级优化的机会。

May, 2024

ML/DL 模型中数据流图的自动任务并行化

我们提出了一种基于关键路径的线性聚类方法，利用机器学习数据流图中的并行路径来优化图的结构，从而加速串行执行速度，并在编译和运行时优于一些当前机制。

Aug, 2023

基于模型修剪和编译器优化在移动平台上实现实时 DNN 推理

本文提出应用硬件友好的结构化模型压缩和编译器优化技术以加速在移动设备上的深度神经网络执行，实验结果表明这些优化技术可以实现多个深度神经网络应用，如风格迁移、DNN 着色和超分辨率的实时移动执行。

Apr, 2020

更多计算是您所需之物

基于新的缩放定律，我们推测模型性能主要取决于计算经费的使用，而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律，我们预测（a）训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率，（b）假设可用的网络数据集已耗尽，扩大模型大小可能是进一步改善模型性能的唯一途径。

Apr, 2024