Miriam：在边缘 GPU 上利用弹性核心进行实时多 DNN 推理

Jul, 2023

Miriam：在边缘 GPU 上利用弹性核心进行实时多 DNN 推理

Miriam: Exploiting Elastic Kernels for Real-time Multi-DNN Inference on Edge GPU

Zhihe Zhao, Neiwen Ling, Nan Guan, Guoliang Xing

TL;DR提出了 Miriam，一种用于多个边缘 GPU 上的深度神经网络任务协调的计划，通过弹性内核生成器和运行时动态内核协调器，可以实现混合关键性 DNN 推理，并且在关键任务上只产生不到 10％的延迟开销，相比现有技术基准，系统吞吐量可提高 92％。

Abstract

Many applications such as autonomous driving and augmented reality, require the concurrent running of multiple deep neural networks (DNN) that poses different levels of real-time performance requirements. However, coordinating multiple DNN tasks with varying levels of criticality on

deep neural networks edge gpus task coordination resource contention system throughput

发现论文，激发创造

PARIS 和 ELSA：一种用于可重构多 GPU 推理服务器的弹性调度算法

本研究探讨了 NVIDIA 最新发布的 Ampere GPU 体系结构在云机器学习推理系统中的应用，并提出了一种适用于异构 GPU 服务器部署的复杂划分算法和弹性调度算法，实现低延迟和高 GPU 利用率的平衡。

Feb, 2022

边缘智能：设备 - 边缘协同，按需深度学习模型协同推理

提出了 Edgent，这是一种协作和按需的 DNN 合作推理框架，其旨在通过在设备和边缘之间自适应地分配 DNN 计算来提高实时 DNN 推理的性能，并通过在适当的中间 DNN 层进行早期退出来加速 DNN 推理。

Jun, 2018

GEMEL：边缘实时视频分析的内存高效模型合并技术

介绍了一种新的内存管理技术 - 模型合并 (GEMEL)，通过合理地共享模型的层次结构和权重，减少了算力与内存的资源消耗，相对于时间 / 空间共享的解决方案，提高了 8-39% 的准确性，并将内存使用率降低了高达 60.7%

Jan, 2022

CoEdge: 基於異構邊緣設備的自適應工作負載分配合作式 DNN 推論

本研究提出一种名为 CoEdge 的分布式深度神经网络计算系统，优化了边缘设备的计算和通信资源，在许多共同参与的异构边缘设备上进行协同深度神经网络计算，与现有方法相比，CoEdge 在降低能耗方面更具优势。

Dec, 2020

Edge-MultiAI: 边缘多租户环境下低延迟深度学习应用的多租户实现

该研究主要针对 IoT 系统中的深度学习多租户应用的内存争用问题，提出了一种名为 Edge-MultiAI 的有效神经网络模型管理框架，结合量化技术和贝叶斯理论等多种策略，使得边缘服务器上的 NN 模型能够同时维护多个应用请求，从而更快的响应更多租户请求，且不会明显损失推理精度。

Nov, 2022

边缘人工智能：通过边缘计算加速深度神经网络推理

该论文提出了一种基于边缘计算的 DNN 协同推理框架 Edgent，通过 DNN 分区和权衡设备的云资源和临近边缘资源来协调实时的 DNN 推理，进而降低计算延迟，实现低延迟边缘智能处理。

Oct, 2019

边缘设备上实现深度学习

本论文探讨了 DNN 在资源受限的边缘设备上部署的优化问题，并研究了四种边缘智能场景下的深度学习方法，通过减少 DNN 冗余度来达到资源消耗与模型准确度之间的平衡。

Oct, 2022

移动 / 嵌入式设备高效推理的动态深度神经网络和运行时管理

深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而，由于计算资源有限，有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法，通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中，我们的模型在 Jetson Xavier NX 的 GPU 上使用 ImageNet 数据集相对于最先进的方法，在相似的 ImageNet Top-1 准确率下速度提高了 2.4 倍，或在相似的延迟下准确率提高了 5.1%。同时，我们设计了一个分级运行时资源管理器，在单模型部署场景中达到了 19% 的能量降低和 9% 的延迟降低，在两个并发模型部署场景中能量降低了 89%，延迟降低了 23%。

Jan, 2024

基于边缘计算无缝协作的分布式深度学习推理加速

本文研究了使用分布式卷积神经网络（CNN）在协作边缘计算中进行推理加速。我们考虑了分段分区时的感受野，以确保推理准确度。为了最大化通信和计算进程之间的并行性，从而最小化推理任务的总时间，我们设计了一种新颖的任务协作方案，称为 HALP。实验证明，HALP 可以使 VGG-16 中 CNN 推理的速度提高 1.7-2.0 倍，对于 4 个任务每批次的速度提高 1.7-1.8 倍，这优于最先进的 MoDNN 方案。此外，我们评估了时变信道下的服务可靠性，表明 HALP 是确保高服务可靠性的有效解决方案。

Jul, 2022

通过多级原位生成实现内存高效神经网络

本研究提出了一种通用和统一的框架，通过多级现场生成机制和混合精度基准，实现了高分辨率参数的即时恢复，从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算，提高了内存效率 10-20 倍。

Aug, 2021