JointDNN：智能移动云计算服务的高效训练和推理引擎

Jan, 2018

JointDNN：智能移动云计算服务的高效训练和推理引擎

JointDNN: An Efficient Training and Inference Engine for Intelligent Mobile Cloud Computing Services

Amir Erfan Eshratifar, Mohammad Saeed Abrishami, Massoud Pedram

TL;DR本文介绍了一种优化的深度神经网络引擎 JointDNN，它在移动设备和云之间实现了合作计算，有效降低了 DNN 查询的延迟和移动能源消耗。

Abstract

deep learning models are being deployed in many mobile intelligent applications. End-side services, such as intelligent personal assistants, autonomous cars, and smart home services often employ either simple local models on the mobile or complex remote models on the cloud. However, re

deep learning mobile devices cloud computing jointdnn latency

发现论文，激发创造

面向协作智能友好的深度学习架构

本文提出了一种新的协作智能友好型架构，通过将移动设备上计算的中间特征卸载到云端以降低需要发送到云端的数据量，使得在 ResNet-50 模型上，相比现有的云端计算方法，端到端延迟和移动能耗分别平均提高了 53 倍和 68 倍，而精度损失不到 2%。

Feb, 2019

边缘智能：设备 - 边缘协同，按需深度学习模型协同推理

提出了 Edgent，这是一种协作和按需的 DNN 合作推理框架，其旨在通过在设备和边缘之间自适应地分配 DNN 计算来提高实时 DNN 推理的性能，并通过在适当的中间 DNN 层进行早期退出来加速 DNN 推理。

Jun, 2018

云、边缘和终端设备上的分布式深度神经网络

分布式深度神经网络 (DDNN) 可以在云端、边缘设备和终端中适应深度神经网络的推断，由于其分布式特性，DDNN 增强了 DNN 应用程序的传感器融合、系统容错和数据隐私，通过将 DNN 映射到分布式计算层次结构中的不同组成部分并联合训练这些部分，我们最小化设备通信和资源使用并最大化提取特征的实用性。实验结果表明，DDNN 可以利用传感器的地理多样性来提高物体识别精度并减少通信成本。

Sep, 2017

移动云协同智能推理

在移动设备上，利用深度学习模型进行 AI 应用程序时，采用共享的移动 - 云推理方法可以降低推理的延迟、能源消耗和网络带宽使用，同时提供隐私保护措施。

Jun, 2023

边缘设备上实现深度学习

本论文探讨了 DNN 在资源受限的边缘设备上部署的优化问题，并研究了四种边缘智能场景下的深度学习方法，通过减少 DNN 冗余度来达到资源消耗与模型准确度之间的平衡。

Oct, 2022

面向云边协同推断的神经网络自动调谐量化框架

本论文阐述了在深度神经网络方面的云端和边缘协作推断在量化方面的优势，提出了一种基于自动调谐的神经网络量化框架，利用 ImageNet 数据集进行了混合精度合作推理的有效性研究，实验结果显示，该框架可以生成合理的网络分割，并减小移动设备上的存储消耗，同时能够保持较高的准确率。

Dec, 2018

通过二步剪枝改进深度学习设备 - 边缘合作推理

本文提出了一种高效、灵活的 DNN 分区方法，通过迭代删除不重要的卷积层过滤器进行剪枝，从而减少移动设备的无线传输负担或总计算负担，并能够自动选择满足各种延迟和准确性要求的修剪过的模型。实验表明，与未剪枝的原始 DNN 模型相比，该框架在传输负载上可实现多达 25.6 倍的降低，总计算速度加快了 6.01 倍，端到端延迟降低了 4.81 倍。

Mar, 2019

通过深度神经网络的自适应模型分割辅助校准边缘推断卸载

该研究针对移动设备上的深度神经网络的推断，使用自适应模型划分的方法解决了通信延迟的问题，并对准确性进行了预测和校准，从而实现更可靠的推断决策。

Oct, 2020

DynO: 从云端到设备的深度神经网络动态加载

本文介绍了一个名为 DynO 的分布式推理框架，它结合了云端卸载计算和设备端计算的最佳优势，采用新颖的 CNN 数据打包方法和调度器，在运行时联合调整分区点和传输数据精度来适应执行环境，并且评估结果表明，DynO 优于当前最先进的系统，在设备端执行时提高吞吐量超过一个数量级，在竞争的 CNN 卸载系统中提高了 7.9 倍，并且传输的数据量减少了高达 60 倍。

Apr, 2021

移动 / 嵌入式设备高效推理的动态深度神经网络和运行时管理

深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而，由于计算资源有限，有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法，通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中，我们的模型在 Jetson Xavier NX 的 GPU 上使用 ImageNet 数据集相对于最先进的方法，在相似的 ImageNet Top-1 准确率下速度提高了 2.4 倍，或在相似的延迟下准确率提高了 5.1%。同时，我们设计了一个分级运行时资源管理器，在单模型部署场景中达到了 19% 的能量降低和 9% 的延迟降低，在两个并发模型部署场景中能量降低了 89%，延迟降低了 23%。

Jan, 2024