基于模型修剪和编译器优化在移动平台上实现实时 DNN 推理
本文提出了一种高效、灵活的 DNN 分区方法,通过迭代删除不重要的卷积层过滤器进行剪枝,从而减少移动设备的无线传输负担或总计算负担,并能够自动选择满足各种延迟和准确性要求的修剪过的模型。实验表明,与未剪枝的原始 DNN 模型相比,该框架在传输负载上可实现多达 25.6 倍的降低,总计算速度加快了 6.01 倍,端到端延迟降低了 4.81 倍。
Mar, 2019
介绍了新的稀疏度维度-粗粒度结构内的细粒度剪枝模式(PCONV)方法,通过结构内的细粒度稀疏性和连接性稀疏性提高了精度和计算效率,在实时推理中取得了显著的速度提升,没有准确性损失。
Sep, 2019
该研究提出了一种新的维度——在粗粒度结构内使用细粒度裁剪,以达到在移动设备上高效执行深度神经网络的效果,并通过编译器进行优化,取得了良好的效果。
Jan, 2020
介绍了一种新的基于模式的稀疏性方法,该方法包括模式和连接度稀疏性,旨在通过权重剪枝同时提高模型准确度和硬件加速性能,并提供了一种针对移动设备的高效DNN执行的解决方案。
Jan, 2020
本文介绍了移动神经网络(Mobile Neural Network,MNN),它是一种适用于移动应用的普适且高效的推理引擎,解决了在移动设备上进行深度学习模型推理的模型兼容性、设备多样性和资源限制等挑战,采用了称为预推理的机制进行运行时优化,针对操作符进行了彻底的内核优化以实现最佳计算性能,并引入了后端抽象模块,实现了混合调度并保持引擎轻量级。广泛的基准实验表明,MNN在性能上与其他流行的轻量级深度学习框架相当。
Feb, 2020
该研究提出了一种针对各种DNN层的精细结构修剪通用类别,并支持不同DNN和不同修剪方案的综合编译自动代码生成框架,进一步提出了一个编译器感知的网络修剪与架构搜索(NPAS)方法,利用基于强化学习的元模型过程解决大规模搜索空间问题,以获得比先前工作更好的手机图像分类性能。
Dec, 2020
本文概述了高效深度学习的方法、系统和应用,包括流行的模型压缩方法、自动化模型设计和用户自定义的基于设备的训练,以及各种针对特定任务和空间-时间冗余的加速技术和系统设计。
Apr, 2022
CPrune提出了一种基于编译器调整的模型修剪方法,通过构建子图的结构信息进行有信息的修剪,从而在满足精度要求的同时,将DNN的执行速度提高了2.73倍。
Jul, 2022
深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而,由于计算资源有限,有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法,通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中,我们的模型在Jetson Xavier NX的GPU上使用ImageNet数据集相对于最先进的方法,在相似的ImageNet Top-1准确率下速度提高了2.4倍,或在相似的延迟下准确率提高了5.1%。同时,我们设计了一个分级运行时资源管理器,在单模型部署场景中达到了19%的能量降低和9%的延迟降低,在两个并发模型部署场景中能量降低了89%,延迟降低了23%。
Jan, 2024
在资源受限的移动设备上部署计算密集型的深度学习模型以实现实时智能应用的需求与日俱增,在各种处理单元(如CPU、GPU和NPU)的支持下,移动设备有潜力通过在异构处理器之间进行并行执行来加速深度学习推理。本文通过精心设计的实验,涵盖了各种深度学习模型、移动软件/硬件环境、工作负载模式和资源可用性,综合性地评估了在异构移动处理器上进行并行深度学习推理的能力和挑战,并确定了现有技术的局限性,并强调了跨层级优化的机会。
May, 2024