彩票英雄的崛起：为何零擊消剪枝很困難

Feb, 2022

彩票英雄的崛起：为何零擊消剪枝很困難

The rise of the lottery heroes: why zero-shot pruning is hard

Enzo Tartaglione

TL;DR本文探讨深度学习中的优化问题，提出一种可能性来在训练时找到可训练的子网络以实现计算效率的提升，但需要在准确度和训练复杂度之间进行权衡。

Abstract

Recent advances in deep learning optimization showed that just a subset of parameters are really necessary to successfully train a model. Potentially, such a discovery has broad impact from the theory to applicat

发现论文，激发创造

重新思考网络剪枝的价值

本研究发现，在针对低资源设置中减少深度模型推理成本的网络修剪过程中，训练大模型通常不是获得高效终端模型的必要条件，学到的“重要”权重通常对小模型没有用，修剪的架构本身比继承的“重要”权重更重要，并且此方法可作为架构搜索范式。本文还比较了“Lottery Ticket Hypothesis”，发现在最佳学习率下，与随机初始化相比，其“获胜券”初始化并未带来提高。

Oct, 2018

PruneTrain: 动态稀疏模型重组快速神经网络训练

我们提出了PruneTrain，这是一种成本高效的机制，可逐步减少训练期间的计算成本，通过使用结构化组套骨骼正则化方法和其他重新配置技术，可以在GPU加速器上高效处理缩小了的卷积神经网络模型，从而实现减少计算成本40％和训练时间39％的效果。

Jan, 2019

优秀子网络存在的证明：基于贪婪前向选择的剪枝

我们通过提出一种基于贪心策略的网络修剪方法来证明神经网络修剪的有效性，理论上能够通过在足够大的预先训练的网络上应用贪心选择策略找到具有更低损失的小型子网络，并在ImageNet上实现了更好的结果，实践中利用修剪的子网络可以从大型模型中获得信息的优势。

Mar, 2020

实用的彩票票假设在对抗训练中的应用

本文提出彩票票据假说，展示了深度神经网络中存在的可训练子网络，这些子网络在相同的训练步骤下表现不亚于原始模型。研究表明存在某些子网络能够更快地收敛，我们的实验表明这些子网络在各种模型结构和超参数的限制条件下的一致存在性，此外，这些子网络能够在对抗性训练中将总时间缩短至最新技术的49％。

Mar, 2020

通过双层优化推进模型剪枝

本文介绍了一种基于双层优化的模型修剪方法，称为BiP，它可以像一级优化一样简单地解决大规模深度学习模型的修剪问题，而且在大多数情况下，此方法可以比传统的迭代剪枝（IMP）找到更好的中奖率，并且在同样的模型准确性和稀疏度下可以获得2-7倍的速度提升。

Oct, 2022

网络剪枝空间

本研究提出网络剪枝空间的概念，探讨子网络结构在不同剪枝范围内的最小精度损失并证明了在某个剪枝范围内存在最佳的 FLOPs-to-parameter-bucket 比率，通过实验结果表明，我们找到的子网络在合理的 FLOPs 下优于现有最先进的剪枝方法。

Apr, 2023

蒸馏修剪：使用合成数据赢得彩票

利用精炼数据来修剪深度学习模型的新方法，通过捕捉精髓模式并利用其能力实现资源高效的神经网络修剪、模型压缩和神经架构搜索。

Jul, 2023

SortedNet：为每个网络提供位置，为每个网络找到合适位置：面向广义解决方案的训练多对一神经网络

深度学习模型大小的增长导致在内存和计算约束下寻找最优模型变得更加重要，该论文提出了SortedNet，一种利用深度神经网络的内在模块化性质实现高效动态推断的通用可扩展解决方案。我们的训练方法考虑了子模型的嵌套架构和共享参数，并以排序和概率的方式一起训练主模型和子模型。在推断过程中，我们无需搜索即可选择子网络，并且生成的子网络具有最小的存储要求和高效的切换能力。实验证明该方法的有效性，同时在保持模型性能的情况下，演示了我们的方法在同时训练多达160个不同子模型的广泛可扩展性。

Sep, 2023

具有结构强胜算头奖券的N次多项式超参数化卷积神经网络

给定一个研究论文，识别并提取五个准确代表其主题和研究领域的关键词。然后，通过一句简洁的中文句子总结该论文。输出结果为JSON，包含关键词和摘要字段，无需解释。

Nov, 2023

初始化时剪枝的信息论障碍

彩票模型的存在考虑了深度学习中是否需要大型模型以及是否可以快速识别和训练稀疏网络，而无需训练包含它们的稠密模型。通过对彩票模型的理论解释，揭示了稀疏网络需要依赖于数据的遮罩来稳定插值噪声数据。研究证实了训练过程中获取的信息可以影响模型容量。

Feb, 2024