稀疏 Iso-FLOP 变换以最大化训练效率

Mar, 2023

稀疏 Iso-FLOP 变换以最大化训练效率

Sparse Iso-FLOP Transformations for Maximizing Training Efficiency

Shreyas Saxena, Vithursan Thangarasa, Abhay Gupta, Sean Lie

TL;DR通过引入一种基于单一超参数的稀疏 Iso-FLOP 变换族，本文试图使用稀疏性提高密集模型的准确性和 FLOP 效率，实现不更改任何训练超参数而在计算机视觉和自然语言处理任务中获得显著的提高，例如 ResNet-18 在 ImageNet 上提高了 3.5％，GPT-3 Small on WikiText-103 下降了 0.4 个 PPL，并在不增加 FLOPs 的前提下，与使用 2 倍或更多 FLOPs 的大型密集模型变体相匹配。

Abstract

Recent works have explored the use of weight sparsity to improve the training efficiency (test accuracy w.r.t training FLOPs) of deep neural networks (DNNs). These works aim to reduce training FLOPs but training

weight sparsity training efficiency deep neural networks sparse iso-flop transformations accuracy improvement

发现论文，激发创造

FLOPs 作为学习稀疏神经网络的直接优化目标

本文扩展了一种最先进的技术，将 FLOPs 直接纳入优化目标，证明不同神经网络能够成功地训练图像分类，从而满足对 FLOPs 需求的指定目标的系统约束。

Nov, 2018

SPDF：大型语言模型的稀疏预训练和密集微调

本文提出了一种基于稀疏先训练和密集微调的预训练语言模型方法，可将训练 FLOPs 的数量降低到原来的 2.5 倍，同时保持与密集基线相同的下游任务准确性。该方法为训练大规模 GPT 模型提供了一个可行的方向。

Mar, 2023

Transformer 中鲁棒性 N:M 稀疏训练的渐进梯度流

现有稀疏训练方法在高稀疏度区域存在模型质量下降的问题，本文通过限制梯度传递以减少梯度噪声，提供了一种改善高稀疏度区域视觉和语言模型性能的方法，并针对模型精度和训练计算成本的权衡问题进行了评估。

Feb, 2024

快速稀疏卷积神经网络

本文介绍了一种使用稀疏性来代替密集操作的高效神经网络建模方法，通过实现一系列高效的稀疏基本操作，并将其用于 MobileNet v1，MobileNet v2 和 EfficientNet 等体系结构中进行了测试，表明稀疏模型不仅效率更高，而且精度比基准模型更高。

Nov, 2019

最小化 FLOPs 来学习高效稀疏表示

提出了一种基于正则化函数的方法，学习高维稀疏表示，以在视觉检索中提高效率，其表现与其他基线方法相竞争，且在实际数据集中具有类似或更好的速度精度平衡。

Apr, 2020

篡改彩票：使所有彩票获奖

本论文提出了一种方法来训练稀疏神经网络，使其在训练过程中保持固定参数数量和固定的计算成本，同时不损失相对于现有密集到稀疏训练方法的准确性，该方法通过使用参数大小和不频繁的梯度计算来更新稀疏网络的拓扑结构。在多种网络和数据集上，我们展示了稀疏训练结果在 ResNet-50、MobileNets on Imagenet-2012、以及 RNNs on WikiText-103 方面的最新技术进展。最终，我们提供了一些见解，为什么允许在优化过程中更改稀疏神经网络拓扑结构可以克服当拓扑结构保持静态时遇到的局部极小值。

Nov, 2019

稀疏训练中是否需要密集过参数化？时时过参数化

提出一种新的训练深度神经网络的方法 ——In-Time Over-Parameterization（ITOP）与稀疏训练相结合来达到稠密训练的性能，通过实验验证 ITOP 可以达到最先进的性能水平，并在极度稀疏情况下优于基于超参数的稀疏方法和稠密模型。

Feb, 2021

SPION: 基于卷积漫延的 Transformer 分层稀疏训练

我们提出了一种新颖的 Transformer 稀疏化方案，通过整合卷积滤波器和泛洪填充方法，高效捕捉自注意操作中的逐层稀疏模式，从而在 Transformer 的训练过程中降低计算复杂度和内存占用，实现了超过现有稀疏 Transformer 模型的 3.08 倍加速，并具有更好的评估质量。

Sep, 2023

AUTOSPARSE: 深度神经网络稀疏训练自动化

本文提出通过渐进式变化策略的梯度退火（gradient annealing，GA）以及最新的可学习剪枝方法相结合的自动稀疏训练算法 AutoSparse，在 ImageNet-1K 数据集上表现优异，80% 稀疏 ResNet50 的训练和推断 FLOPS 减少分别达到 2 倍和 7 倍。与当前最好的稀疏到稀疏（sparse-to-sparse）方法 MEST 的表现相似，但使用的训练和推理 FLOPS 分别多 12％和 50％不到。

Apr, 2023

精调预训练大型语言模型中的稀疏是足够的

通过研究下游领域的损失函数从随机初始化到预训练初始化的变换，本文揭示了参数梯度稀疏性的特性，提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT)，并在多个任务上验证了其有效性。

Dec, 2023