使用图神经网络的深度学习推断性能预测模型 DIPPM

Mar, 2023

使用图神经网络的深度学习推断性能预测模型 DIPPM

DIPPM: a Deep Learning Inference Performance Predictive Model using Graph Neural Networks

Karthick Panner Selvam, Mats Brorsson

TL;DR本文介绍了一种基于深度学习推理性能预测模型的方法，该模型可以预测在 NVIDIA A100 GPU 上给定输入的深度学习模型的推理延迟、能量和内存使用情况，并建议适当的 GPU 配置方案，同时帮助进行模型推理性能的快速设计空间探索。

Abstract

deep learning (DL) has developed to become a corner-stone in many everyday applications that we are now relying on. However, making sure that the DL model uses the underlying hardware efficiently takes a lot of effort. Knowledge about →

deep learning inference characteristics dl inference performance predictive model nvidia a100 multi-instance gpu profile

发现论文，激发创造

CDMPP：一种适用于张量程序的设备模型无关框架的延迟预测

我们提出了 CDMPP：一种用于跨模型和跨设备预测的高效张量程序延迟预测框架，它通过紧凑的 AST 表示和基于预排序的位置编码方法来捕获张量程序的内部结构，通过领域适应启发式方法学习领域不变表示，并设计了基于 KMeans 的采样算法来支持不同领域的学习，实验证明 CDMPP 相较于现有方法具有更高的预测准确率，并且训练效率提高一个数量级。

Nov, 2023

多 GPU 平台机器学习训练的通用性能建模

通过数据分配感知性能模型和通信集合的数据移动预测，我们可以在多个 GPU 平台上训练机器学习工作负载，并且能够准确预测迭代训练时间，扩展到其他类型的机器学习工作负载，例如基于 Transformer 的自然语言处理模型，并能够生成洞察力，如快速选择最快的嵌入表分片配置。

Apr, 2024

面向可适应优化算法的灵活准确性导向深度学习模块推断延迟预测框架

深度学习模型推理延迟预测的新框架和新方法 MEDN 在综合实验中展现了较高的准确性和 R 方值。

Dec, 2023

硬件感知机器学习：建模与优化

本篇论文全面评估现有的面向硬件的深度学习模型建模和优化方法，提出几个值得探讨的研究方向，旨在让深度学习的应用对硬件系统和平台产生显著影响。

Sep, 2018

通过混合成员推断对深度神经网络进行稳健且无损指纹识别

本研究提出了一种名为池化分组会员推断（PMI）的新技术，旨在保护深度神经网络（DNN）模型的知识产权。PMI 并不改变给定 DNN 模型的网络参数，也不通过一系列精心设计的触发样本进行微调，而是通过推断哪个小型数据集曾用于训练目标 DNN 模型来确定 DNN 模型的所有权。实验也展示了这项工作的优越性和适用性。

Sep, 2022

EPAM：移动 AI 的预测能耗模型

本研究介绍了针对不同 DNN 模型和处理源的移动 AI 应用的全面研究，重点关注计算资源利用率、延迟和能量消耗。通过广泛的实验，我们测量了所有模型的延迟、能量消耗和内存使用情况，并提出了一种基于 DNN 结构、计算资源和处理器的高斯过程回归预测能量模型。此研究为 AI 研究社区提供了关键事实和能量预测机制，以帮助移动 AI 应用程序实现能源效率。

Mar, 2023

LLM 性能预测模型为架构搜索提供良好初始值

使用大型语言模型构建性能预测模型，并在机器翻译和神经架构搜索领域展示出优越的性能，同时提出基于大型语言模型的性能预测模型进行性能估计，以及一种基于混合搜索算法的神经架构搜索方法，通过这些方法可以显著降低搜索时间并改善性能指标。

Oct, 2023

MIGPerf: 多实例 GPU 深度学习训练和推断负载的全面基准测试

本文提供了一个名为 MIGPerf 的开源工具，对多实例 GPU 技术进行了综合和实际的基准研究，并从多方面对 MIG 进行了实验研究，为用户有效使用 MIG 提供新的见解和指导，并为在 MIG 上协调混合训练和推理负载的研究奠定了基础。

Jan, 2023

DNN-Chip Predictor：一种基于分析的深度神经网络加速器性能预测器，支持不同数据流和硬件架构

本文提出了 DNN-Chip Predictor，一种分析性能预测器，能够在实际实现之前准确预测 DNN 加速器的能量、吞吐量和延迟，从而加快和提高 DNN 加速器的开发效率。该预测器具有分析性能公式，支持不同的算法对硬件映射方案（即数据流）和硬件体系结构。实验结果表明，使用不同的 DNN 模型、硬件体系结构和数据流时，预测性能与 FPGA/ASIC 实现的芯片测量结果的差异不超过 17.66％。

Feb, 2020

通过并行得分匹配实现扩散模型的更快训练和改进密度估计

本文提出一种基于独立神经网络的时间划分模型来快速提高 DPMs 训练速度和提升密度估计性能。

Jun, 2023