双动态推断:实现更高效、自适应和可控的深度推断
深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而,由于计算资源有限,有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法,通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中,我们的模型在 Jetson Xavier NX 的 GPU 上使用 ImageNet 数据集相对于最先进的方法,在相似的 ImageNet Top-1 准确率下速度提高了 2.4 倍,或在相似的延迟下准确率提高了 5.1%。同时,我们设计了一个分级运行时资源管理器,在单模型部署场景中达到了 19% 的能量降低和 9% 的延迟降低,在两个并发模型部署场景中能量降低了 89%,延迟降低了 23%。
Jan, 2024
提出了一种全动态模型的方法,称为 LC-Net,旨在最大化深度卷积神经网络的计算效率和任务准确性,通过以层和卷积滤波通道为单位的层次推理动力学,能够预测冗余层和卷积滤波器 / 通道并学习保留计算结果以实现最大化任务准确性。
Jul, 2020
分布推理是边缘上高效 DNN 推理的一种流行方法。本文引入了专为分布推理设计的流体动态 DNNs(Fluid DyDNNs),通过使用新颖的嵌套增量训练算法来提高其子网络的独立和组合操作能力,从而增强系统的可靠性和适应性。在嵌入式 Arm CPU 上评估了一个 DNN 模型和 MNIST 数据集,在单设备故障的情况下,Fluid DyDNNs 确保推理的持续性,而 Static DNNs 和 Dynamic DNNs 则失败。当设备全部正常运行时,Fluid DyDNNs 可以在高精度模式下达到与 Static DNNs 相当的准确性,或者在高吞吐量模式下分别比 Static 和 Dynamic DNNs 提高 2.5 倍和 2 倍的吞吐量。
Jan, 2024
本文提出一种底层深度神经网络模型设计策略和顶层 DNN 加速器设计流程的双向协同设计方法,通过在 IoT 设备上进行联合优化使得既能获得高 IoU 精度的 QoR 也能获得高 FPS 和高能效的 QoS。
May, 2019
本文研究了工业物联网网络中协作深度神经网络推理问题,提出了一种基于深度强化学习的算法,将动态配置物联网设备的采样率、推理任务卸载和边缘计算资源分配共同考虑,通过转化为马尔可夫决策过程来最小化服务延迟并保证准确性。
Dec, 2022
本论文致力于提高神经网络的效率,提出了连续推理网络(CIN),它通过自下而上的计算重新组织和适度的架构修改来改善其在线处理效率,并采用 CIN 重构了几种广泛使用的网络架构,包括 3D CNN,ST-GCN 和 Transformer Encoders。另外,通过使用熔接适配器网络和结构修剪,本论文还达到了在使用较少的学习权重的情况下实现卓越的预测准确性的目的。
Jun, 2023
借鉴人脑的高效率和低功耗,本文提出了一种基于预测编码理论和动态提前终止的浅双向网络,以加入硬件有限资源在设计过程中,实现在 CIFAR-10 图像分类上与 VGG-16 相当准确率的结果,使用更少的参数和较低的计算复杂度。
Sep, 2023
提出了 Edgent,这是一种协作和按需的 DNN 合作推理框架,其旨在通过在设备和边缘之间自适应地分配 DNN 计算来提高实时 DNN 推理的性能,并通过在适当的中间 DNN 层进行早期退出来加速 DNN 推理。
Jun, 2018
本文提出了一种设计方法,旨在分配在分布式 IoT 应用程序中卷积神经网络(CNNs)的执行。该方法在满足单元级内存和处理负载的约束条件下最小化数据采集阶段和随后的决策阶段之间的延迟。该方法支持多个数据源和多个 CNN 的执行,从而可以设计基于 CNN 的应用程序,要求具有自治性、低决策延迟和高服务质量。
Aug, 2019
本文介绍了一个名为 DynO 的分布式推理框架,它结合了云端卸载计算和设备端计算的最佳优势,采用新颖的 CNN 数据打包方法和调度器,在运行时联合调整分区点和传输数据精度来适应执行环境,并且评估结果表明,DynO 优于当前最先进的系统,在设备端执行时提高吞吐量超过一个数量级,在竞争的 CNN 卸载系统中提高了 7.9 倍,并且传输的数据量减少了高达 60 倍。
Apr, 2021