在训练时优化多加速器SoC上的深度神经网络推理

Sep, 2024

在训练时优化多加速器SoC上的深度神经网络推理

Optimizing DNN Inference on Multi-Accelerator SoCs at Training-time

Matteo Risso, Alessio Burrello, Daniele Jahier Pagliari

TL;DR本研究解决了如何在多计算单元的异构系统上映射深度神经网络(DNN)的问题，以平衡推理的延迟和能耗，同时考虑到精度。提出的ODiMO工具在训练阶段有效探索DNN的细粒度映射，能够显著提高效率，实验结果表明，在同等精度下，ODiMO可将推理延迟减少最多8倍，并在能量效率方面实现高达50.8倍的改善。

Abstract

The demand for executing Deep Neural Networks (DNNs) with low latency and minimal power consumption at the edge has led to the development of advanced heterogeneous Systems-on-Chips (SoCs) that incorporate multiple specialized computing units (CUs), such as accelerators. Offloading DNN

发现论文，激发创造

Marvel: 面向空间加速器上的DNN运算符的数据中心编译器

研究提出了用于生成各种DNN模型运算符在加速器计算和内存资源上的优化映射的编译器和其成本模型的有效性，使用Maestro Data-Centric（MDC）记法，提供了DNN运算符的形式上的理解，提出了一种将映射转换为MDC记法的转换，并提出了一种将搜索空间分解为off-chip和on-chip子空间的解决方案。

Feb, 2020

面向DNN推理的多加速器平台的精度感知延迟和能耗平衡

该研究提出ODiMO，是一种硬件感知工具，用于精细映射芯片上的不同加速器，以并行执行DNN的不同层，从而降低推理能量消耗或延迟。在三个流行的数据集/DNN对上追求在精度与能量或延迟空间中 Pareto 最优网络，在DIANA异构超低功耗边缘AI SoC上部署后，ODiMO将能量/延迟降低了33％/31％，而精度下降有限（-0.53％/-0.32％），与手动启发式映射相比。

Jun, 2023

OmniBoost: 异构嵌入式设备在多重DNN工作负载下的吞吐量增强

本研究提出了一种用于异构嵌入式设备的轻量级且可扩展的多DNN管理器，通过利用随机空间探索和精确的性能估计器，相比其他最先进的方法，平均吞吐量提高了4.6倍。

Jul, 2023

MARS：在自适应多加速器系统上利用多层并行性优化DNN工作负载

基于深度神经网络的多加速器系统中，选择适当的加速器组合和高效的神经网络映射策略是一个具有挑战性的问题，我们提出了一个名为MARS的新型映射框架，可以执行计算感知的加速器选择，并应用通信感知的分片策略来最大化并行性，实验证明，与基准相比，MARS可以平均减少32.2%的延迟，并且相对于对应的最先进方法，可以减少59.4%的异构模型的延迟。

Jul, 2023

DiviML: 模块化启发式算法用于神经网络在异构平台上的映射

数据中心中的异构深度神经网络调度器利用混合整数线性规划和基于模块化的启发式方法，通过自动分区和设备映射，优化了深度神经网络的计算性能并显著提高了解决方案的质量，可用于调度大型语言模型跨多个异构服务器。

Jul, 2023

共享内存冲突感知的异构片上系统并发DNN执行

本研究提出了一种名为HaX-CoNN的新方案，将并发执行的深度神经网络推理工作负载的层映射到系统级芯片内的多种异构加速器，以最小化内存争用并提升工作负载的延迟和总体吞吐量。实验结果表明，与最先进的方法相比，HaX-CoNN可将内存争用降低最多45%，延迟和总体吞吐量分别提高最多32%和29%。

Aug, 2023

为减少DNN加速器的片外数据访问而结合调度、内存分配和张量替换

通过一个名为COSMA的优化框架，我们能够在专用硬件加速器上为DNNs找到最佳的操作调度、内存分配和张量替换方式，从而最小化额外数据访问，同时通过分而治之的启发式方法可以将复杂DNNs的数据访问降低85%以上。

Nov, 2023

深度神经网络加速器中的量化和映射协同探索

卷积神经网络（CNN）的能效和内存占用取决于权重量化策略和映射，通过启用丰富的混合量化方案，我们可以找到更有效利用硬件资源的映射，从而在精度、能耗和内存要求之间取得更好的平衡。通过扩展Timeloop工具，提出了一种高效的多目标优化算法，实证了该方法在两种CNN和两种加速器上的有效性，并证明了相对于未经精心优化的CNN实现，可以实现高达37%的能量节省，而无需降低精度。

Apr, 2024

为在NVCIM加速器上高效部署DNN而设计的微小共享块

通过在DNN架构中集成一个小的共享1x1卷积块，我们提出了“Tiny Shared Block (TSB)”方法，有效地减小了设备变异的影响，从而实现了超过20倍的推理准确性提升、超过5倍的训练加速和减少权重到设备映射成本，同时在编程期间只需要验证不到原始权重的0.4%。该方法为NVCIM加速器上部署稳健的DNN模型提供了实用和高效的解决方案，对于能效AI硬件领域具有重要贡献。

May, 2024

深度神经网络加速器快速准确性能模型的自动生成

本研究针对在资源受限的边缘设备上实现深度神经网络（DNN）面临的挑战，提出了一种自动生成快速性能模型的方法，以准确估算映射到加速器架构的DNN延迟。我们的关键发现是，该方法结合DNN硬件依赖图分析，显著加速了性能评估过程，相较于仿真结果，有效降低了平均绝对百分比误差（MAPE）。

Sep, 2024