Miriam:在边缘 GPU 上利用弹性核心进行实时多 DNN 推理
本研究探讨了 NVIDIA 最新发布的 Ampere GPU 体系结构在云机器学习推理系统中的应用,并提出了一种适用于异构 GPU 服务器部署的复杂划分算法和弹性调度算法,实现低延迟和高 GPU 利用率的平衡。
Feb, 2022
提出了 Edgent,这是一种协作和按需的 DNN 合作推理框架,其旨在通过在设备和边缘之间自适应地分配 DNN 计算来提高实时 DNN 推理的性能,并通过在适当的中间 DNN 层进行早期退出来加速 DNN 推理。
Jun, 2018
介绍了一种新的内存管理技术 - 模型合并 (GEMEL),通过合理地共享模型的层次结构和权重,减少了算力与内存的资源消耗,相对于时间 / 空间共享的解决方案,提高了 8-39% 的准确性,并将内存使用率降低了高达 60.7%
Jan, 2022
本研究提出一种名为 CoEdge 的分布式深度神经网络计算系统,优化了边缘设备的计算和通信资源,在许多共同参与的异构边缘设备上进行协同深度神经网络计算,与现有方法相比,CoEdge 在降低能耗方面更具优势。
Dec, 2020
该研究主要针对 IoT 系统中的深度学习多租户应用的内存争用问题,提出了一种名为 Edge-MultiAI 的有效神经网络模型管理框架,结合量化技术和贝叶斯理论等多种策略,使得边缘服务器上的 NN 模型能够同时维护多个应用请求,从而更快的响应更多租户请求,且不会明显损失推理精度。
Nov, 2022
该论文提出了一种基于边缘计算的 DNN 协同推理框架 Edgent,通过 DNN 分区和权衡设备的云资源和临近边缘资源来协调实时的 DNN 推理,进而降低计算延迟,实现低延迟边缘智能处理。
Oct, 2019
本论文探讨了 DNN 在资源受限的边缘设备上部署的优化问题,并研究了四种边缘智能场景下的深度学习方法,通过减少 DNN 冗余度来达到资源消耗与模型准确度之间的平衡。
Oct, 2022
深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而,由于计算资源有限,有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法,通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中,我们的模型在 Jetson Xavier NX 的 GPU 上使用 ImageNet 数据集相对于最先进的方法,在相似的 ImageNet Top-1 准确率下速度提高了 2.4 倍,或在相似的延迟下准确率提高了 5.1%。同时,我们设计了一个分级运行时资源管理器,在单模型部署场景中达到了 19% 的能量降低和 9% 的延迟降低,在两个并发模型部署场景中能量降低了 89%,延迟降低了 23%。
Jan, 2024
本文研究了使用分布式卷积神经网络(CNN)在协作边缘计算中进行推理加速。我们考虑了分段分区时的感受野,以确保推理准确度。为了最大化通信和计算进程之间的并行性,从而最小化推理任务的总时间,我们设计了一种新颖的任务协作方案,称为 HALP。实验证明,HALP 可以使 VGG-16 中 CNN 推理的速度提高 1.7-2.0 倍,对于 4 个任务每批次的速度提高 1.7-1.8 倍,这优于最先进的 MoDNN 方案。此外,我们评估了时变信道下的服务可靠性,表明 HALP 是确保高服务可靠性的有效解决方案。
Jul, 2022
本研究提出了一种通用和统一的框架,通过多级现场生成机制和混合精度基准,实现了高分辨率参数的即时恢复,从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算,提高了内存效率 10-20 倍。
Aug, 2021