DNNShifter: 边缘计算的高效DNN剪枝系统
我们提出了PruneTrain,这是一种成本高效的机制,可逐步减少训练期间的计算成本,通过使用结构化组套骨骼正则化方法和其他重新配置技术,可以在GPU加速器上高效处理缩小了的卷积神经网络模型,从而实现减少计算成本40%和训练时间39%的效果。
Jan, 2019
本文提出了一种高效、灵活的 DNN 分区方法,通过迭代删除不重要的卷积层过滤器进行剪枝,从而减少移动设备的无线传输负担或总计算负担,并能够自动选择满足各种延迟和准确性要求的修剪过的模型。实验表明,与未剪枝的原始 DNN 模型相比,该框架在传输负载上可实现多达 25.6 倍的降低,总计算速度加快了 6.01 倍,端到端延迟降低了 4.81 倍。
Mar, 2019
本论文提出了一个块级剪枝框架,具有通用的和灵活的结构化剪枝维度,以及强大高效的加权正则化方法和集成了编译器优化的代码优化技术,可用于实时移动加速,同时实现了对CNN和RNN的通用覆盖,无需减小准确性。
Jan, 2020
本研究提出了一种新的压缩范式:DepthShrinker,可通过将现有深度神经网络的基本构建块缩小为具有更改进的硬件利用率的密集块来开发硬件友好的紧凑网络,从而提高硬件效率并维持模型准确性,DepthShrinker框架能够提供优于当今最先进的高效DNN和压缩技术的硬件友好的紧凑网络
Jun, 2022
在边缘设备中部署深度神经网络时,我们提出了一种全新的剪枝框架,名为All-in-One,以应对动态功率管理带来的不稳定的推理速度性能,通过重新配置具有各种修剪比例的模型,以适应特定的执行频率和电压,使推理速度保持尽可能稳定。
Dec, 2022
Archtree是一种新的基于延迟驱动的DNN结构修剪方法,通过并行地在树形结构中探索多个候选修剪子模型,实时估计目标硬件的延迟,从而更好地适应延迟预算并保持原始模型准确性。
Nov, 2023
深度神经网络(DNNs)在各个领域取得了显著的成功。然而,DNNs中的大量浮点运算(FLOPs)对于在资源受限应用中部署它们提出了挑战。为了解决这个问题,引入了修剪技术来减少执行DNNs的计算成本。与以往的修剪方法不同,本文提出了一种类感知的修剪技术来压缩DNNs,为减少DNNs的计算成本提供了一种新的视角。该修剪技术优于以前的修剪解决方案在准确性、修剪比率和FLOPs的减少方面。实验结果证实,这种类感知的修剪技术能够显著减少权重和FLOPs的数量,同时保持高推理准确度。
Dec, 2023
深度神经网络剪枝是减少模型大小、提高推理延迟和降低深度神经网络加速器功耗的一种关键策略。我们介绍了一种新型的、独立且可微的剪枝方法(SMART pruner),它通过利用独立的、可学习的概率掩码来排名权重重要性,采用可微分的前k个操作符实现目标稀疏性,并利用动态温度参数技巧逃离非稀疏局部最小值。实验证明,SMART pruner在各种任务、模型和剪枝类型上始终表现出优于现有剪枝方法的优越性。此外,在N:M剪枝情况下,我们还针对基于Transformer的模型进行了测试,SMART pruner也取得了最先进的结果,展示了它在各种神经网络架构和剪枝类型上的适应性和鲁棒性。
Mar, 2024
通过使用ONNXPruner适配器,我们提出了一种多功能的剪枝方法,该方法可以适用于不同的深度学习框架和硬件平台,通过使用节点关联树来指导剪枝过程,并通过树级评估方法进行全面分析,从而提高剪枝性能。
Apr, 2024
利用结构化剪枝技术,Reconvene系统可快速生成适用于边缘部署的经剪枝模型,大小减小了16.21倍,速度加快2倍,同时保持与未经剪枝的模型相同的准确性。
Apr, 2024