稀疏模型汤:通过模型平均实现剪枝改进的配方
本文提出一种基于迭代幅值修剪 (Iterative Magnitude Pruning, IMP) 算法的改进方法 Sparse Weight Averaging with Multiple Particles (SWAMP),通过同时训练多个稀疏模型,利用加权平均的方式获得更好的泛化表现,该方法相比于现有基线方法在不同稀疏度下表现更优。
May, 2023
通过平均训练以不同超参数配置微调的模型,提高现有模型的性能和鲁棒性,从而在多个图像分类和自然语言处理任务中达到新的最先进技术水平。
Mar, 2022
通过使用平均集成的日志绩效近似模型汤的性能,我们提出了一种加速模型汤的方法。理论上证实了集成日志与权重平均模型汤在任何混合比例下的一致性。我们的资源调整模型汤方法在允许灵活的评估预算的同时,相比以前的贪婪方法能够在更低的预算下提高性能(ImageNet 上高达 4%)。
Jan, 2024
使用不同的 Model Soups 并从中选出 Pruned Soup,比较了不同模型的表现,然后讨论了实验中发现的 weight-averaging 的局限性。
Jan, 2023
通过使用合成数据进行神经网络剪枝,我们发现在使用迭代幅度剪枝(IMP)时,与真实数据 IMP 所找到的次网络相比,与真实数据中的 SGD 噪声更稳定的新型稀疏网络类。通过线性插值、损失面可视化和测量海森矩阵的对角线进行研究,我们发现这些性质使得在适用合成数据的设置中,合成选择的次网络通常能达到与传统 IMP 相媲美的性能,而训练点可减少多达 150 倍。
Oct, 2023
通过修剪来高效地压缩神经网络,减少存储和计算需求,同时保持预测性能,我们提出了一种参数高效的修剪后重训练方法,使得修剪和重训练大规模语言模型的任务成为可能。
Dec, 2023
Diffusion Soup 通过对分片数据上训练的扩散模型的权重进行平均,实现了训练免费的持续学习和遗忘,从而在权重空间中从几何平均的分布中采样,提供反记忆化保证,并实现零样式混合和混合样式的零样生成。
Jun, 2024
本文探讨在资源受限环境下,通过模型剪枝来压缩神经网络模型的方法,提出了一种简单、直接、易于应用的逐渐剪枝技术,并在多个模型 / 数据集上进行了比较,发现大型稀疏模型在保持较高精度的同时可减少 10 倍的参数数量。
Oct, 2017
本文介绍了一种名为 Instant Soup Pruning (ISP) 的卷积神经网络模型剪枝方法,使用该方法在不需要昂贵硬件的情况下,生成小型剪枝模型子网络,并成功将该方法应用于两个大规模预训练模型:CLIP 和 BERT,我们的实验结果表明,与其他剪枝方法相比,ISP 非常有效。
Jun, 2023