Archtree: 基于实时树结构探索的深度神经网络低延迟裁剪
本文提出了一种简单而有效的基于数据驱动优化的频道修剪方法,该方法通过每层发现必要的宽度,以非均匀修剪ResNet-50等深度神经网络,实现了与现有方法相同的FLOP降低率,同时提高了0.98%的准确度,并优于其他深度神经网络如ResNet-34和ResNet-18。
May, 2020
通过硬件感知延迟剪枝(HALP)将结构剪枝作为全局资源分配优化问题,同时控制延迟在预定义的预算下最大化准确性。 HALP 使用延迟查找表来跟踪延迟减少潜力,使用全局显着性得分来评估准确度降低,并可以在剪枝期间非常高效地评估这两个指标,使我们能够在目标约束下重构全局结构剪枝问题,从而通过我们的增强型背包求解器解决问题,从而使HALP在剪枝效果和准确性效率平衡方面超越以前的工作。
Oct, 2021
本文提出一种自动修剪方法来减少神经网络中的FLOPs,该方法通过引入可训练瓶颈来学习哪些神经元需要被保留以保持模型准确性,实验证明,该方法可以在保持模型准确性的前提下显著减少模型的FLOPs。
Nov, 2021
使用结构化剪枝方法,在不降低推理准确度的情况下,通过算法的网络增强、剪枝、子网络合并和移除,实现了高达93%的稀疏度与95%FLOPs的减少,同时在分类和分割问题上超过了先进水平,并且避免了在GPU上进行计算昂贵的稀疏矩阵运算。
Aug, 2023
DNNShifter是一个端到端的DNN训练、空间修剪和模型切换系统,通过采用结构化修剪的新方法,快速地生成适用于边缘推理的模型变体,这些模型变体比密集模型小且快速,并且在保持相似精度的同时,产生出高效的推理延迟和低开销模型切换和内存利用。
Sep, 2023
结构化修剪技术(SPA)是一种适用于不同架构、框架和修剪标准的多功能架构修剪框架,通过使用标准化计算图和ONNX表示法来实现对神经网络的修剪,并通过分组级别的重要性估计方法来进行修剪。在对比实验中,SPA在不同架构、流行框架和不同修剪时间上表现出与现有技术相当的修剪性能。OBSPA是一种无需微调或校准数据即可实现最先进的修剪结果的算法。
Mar, 2024
深度神经网络剪枝是减少模型大小、提高推理延迟和降低深度神经网络加速器功耗的一种关键策略。我们介绍了一种新型的、独立且可微的剪枝方法(SMART pruner),它通过利用独立的、可学习的概率掩码来排名权重重要性,采用可微分的前k个操作符实现目标稀疏性,并利用动态温度参数技巧逃离非稀疏局部最小值。实验证明,SMART pruner在各种任务、模型和剪枝类型上始终表现出优于现有剪枝方法的优越性。此外,在N:M剪枝情况下,我们还针对基于Transformer的模型进行了测试,SMART pruner也取得了最先进的结果,展示了它在各种神经网络架构和剪枝类型上的适应性和鲁棒性。
Mar, 2024
利用结构化剪枝技术,Reconvene系统可快速生成适用于边缘部署的经剪枝模型,大小减小了16.21倍,速度加快2倍,同时保持与未经剪枝的模型相同的准确性。
Apr, 2024
通过轻量级的基于梯度的搜索方法和硬件感知的方式,结合稀疏化和混合精度量化的优化技术,在减小延迟和内存占用方面获得Pareto最优的准确性与成本(即延迟或内存)之间的深度神经网络。
Jul, 2024