SPION: 基于卷积漫延的 Transformer 分层稀疏训练
本文介绍一种利用 CNNs 去处理罕见数据的工具套件,包括直接稀疏卷积、注意力机制避免填充,以及适用于标准学习框架的反向传播算法改进,可以实现比传统密集框架更低的内存足迹和计算时间。
Jan, 2018
SparseSpikformer 是一种通过令牌和权重修剪技术实现稀疏性的共设计框架,可以显著减少模型参数 90%并减少 20%的 GFLOPs,同时保持原始模型的准确性。
Nov, 2023
本文提出了一种通过利用视觉数据中的空间稀疏性进行模型加速的新方法,该方法基于所提出的动态令牌稀疏化框架,并通过自适应和不对称计算等方式推广到各种体系结构中,通过对不重要的特征使用轻量级快速路径和对更重要位置使用更具表现力的慢速路径,可以显著减少总体计算量,实验结果表明动态空间稀疏化为模型加速提供了新的更有效的解决方案。
Jul, 2022
我们提出了一种新方法,通过学习在训练过程中选择最具信息量的令牌表示方法来稀疏 Transformer 模型中的注意力,从而关注输入的特定部分。由于一个强大的可训练的 top-k 操作符,将二次时间和内存复杂度降低到亚线性水平。我们在一个具有挑战性的长文档摘要任务上的实验表明,即使是我们的简单基线表现也与当前的 SOTA 相当,通过可训练的池化技术,我们可以保持其最高质量,在训练过程中快 1.8 倍,推理时快 4.5 倍,并且在解码器中计算效率高达 13 倍。
Sep, 2020
本研究提出了一种用于构建下一代 Transformer 模型的方法,即利用稀疏层进行有效缩放和高效执行非批量解码。结果表明,这种模型在拥有相同参数数量的情况下,可以获得与标准 Transformer 相同的效果,并且在长文本摘要方面表现优异。
Nov, 2021
本文介绍了一种称为 Sparse Transformers 的神经网络架构,该架构通过稀疏的注意力矩阵因式分解和其他一些技术,可以更有效地处理长序列等任务,并在 Enwik8,CIFAR-10,和 ImageNet-64 等基准数据集上创造出新的最优表现。
Apr, 2019
本论文通过采用稀疏卷积和分层解码器等新技术,将 BERT - 风格的预训练方法推广到卷积神经网络领域,并且在 ResNet 和 ConvNeXt 等模型上进行了验证,在目标检测和实例分割等任务中,优于当前最先进的对比学习和变换器掩模建模方法。
Jan, 2023
本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络,其将自注意力操作限制在空间上邻近的一组 Token 上,并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题,可以在保证准确率下显著减少计算量,达到更优的精度-计算复杂度平衡点,进一步结合 Token 稀疏机制,该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。
Mar, 2023
通过应用稀疏和二元权重变换器在多变量时间序列问题上,我们表明轻量级模型能够获得与相同结构的稠密浮点变换器相当的准确性。我们的模型在分类、异常检测和单步预测三个时间序列学习任务上取得了良好的结果,并应用了两种修改以减少注意力机制的计算复杂度,从而大大减少变换器中非零操作的数量。我们在参数数量、存储大小和浮点运算量(FLOPs)等多个度量标准上测量了我们的方法的计算节约,并展示了高达 53 倍的存储大小减少和高达 10.5 倍的 FLOPs 减少。
Aug, 2023
我们提出了 SPT 系统,通过引入稀疏性来高效地微调基于 Transformers 的模型,减少内存消耗,并且在各种模型配置上优于优化的基准模型,将峰值内存消耗降低了多达 50%,加速微调速度高达 2.2 倍。
Dec, 2023