本文提出了一种高效、灵活的 DNN 分区方法,通过迭代删除不重要的卷积层过滤器进行剪枝,从而减少移动设备的无线传输负担或总计算负担,并能够自动选择满足各种延迟和准确性要求的修剪过的模型。实验表明,与未剪枝的原始 DNN 模型相比,该框架在传输负载上可实现多达 25.6 倍的降低,总计算速度加快了 6.01 倍,端到端延迟降低了 4.81 倍。
Mar, 2019
这篇论文提出了一种基于强化学习的 AI 策略 SplitPlace,可以智能决策基于边缘计算的需求,采用分层或语义分割策略,对神经网络进行分割并将其部署在资源受限的移动边缘设备上,实现高效可扩展的计算。实验表明,SplitPlace 可以显著提高平均响应时间、截止日期违规率、推断准确度和总奖励达 46%,69%,3%和 12%。
May, 2022
本文介绍了一种模型分区 / 切割的方法,将深度神经网络切分为两个部分,分别在设备和服务器上进行联合训练和联合推理,旨在通过交替优化解决划分点选择和带宽分配问题,以最小化系统的延迟
Oct, 2023
提出了 Edgent,这是一种协作和按需的 DNN 合作推理框架,其旨在通过在设备和边缘之间自适应地分配 DNN 计算来提高实时 DNN 推理的性能,并通过在适当的中间 DNN 层进行早期退出来加速 DNN 推理。
Jun, 2018
本研究提出了一种基于动态选择拆分位置的动态拆分计算模型,通过利用现代深度神经网络结构中已有的瓶颈,避免了重新训练和超参数优化,并没有对深度神经网络的最终准确性产生任何负面影响。大量实验证明,动态拆分计算模型在边缘计算环境中可以实现更快的推理。
本研究提出一种名为 CoEdge 的分布式深度神经网络计算系统,优化了边缘设备的计算和通信资源,在许多共同参与的异构边缘设备上进行协同深度神经网络计算,与现有方法相比,CoEdge 在降低能耗方面更具优势。
Dec, 2020
介绍了在移动设备中使用深度神经网络技术的优劣,提出了通过分割计算和提前结束计算的方法,将深度神经网络分别部署在移动设备和云 / 边缘服务器上,最终可减少带宽和能耗,同时提高精度并根据当前需求调节精度与延迟之间的平衡。
Mar, 2021
本文提出了一种有效的边缘计算推理方法,并探讨了在设备模型的计算成本和中间特征的通信成本之间进行的关键权衡。通过模型拆分点选择、通信感知模型压缩和任务导向的中间特征编码,提出了一个三步框架来有效地进行推理,实验结果表明,与基准方法相比,我们的提出的框架具有更好的权衡,可以显著减少推理延迟。
Jun, 2020
将早期退出和拆分计算相结合,开发了一种在线无监督学习算法 SplitEE,通过在资源受限设备中选择性计算和外部计算,实现了大幅降低成本(>50%)并略微降低准确性(<2%)的效果。
Sep, 2023
通过模型驱动的强化学习方法,该研究在边缘计算环境中最优化部署大型语言模型,提高隐私和计算效率,减少计算成本,并在分散式环境中实现了推理性能和计算负载的平衡。
Jun, 2024