利用 2:4 稀疏加速 Transformer 预训练

Apr, 2024

利用 2:4 稀疏加速 Transformer 预训练

Accelerating Transformer Pre-Training with 2:4 Sparsity

Yuezhou Hu, Kang Zhao, Weiyu Huang, Jianfei Chen, Jun Zhu

TL;DR使用 NVIDIA Ampere GPU 利用 2:4 稠密 / 稀疏矩阵相乘的性质对 Transformer 的预训练进行加速，通过修改稀疏优化过程中的估计器和在预训练末端进行简单而有效的稠密微调，以及利用卷积计算可转置的 2:4 掩码和减少 GPU L2 缓存缺失来加速门控激活函数，实验结果表明我们提出的方法在不同 2:4 训练方法中达到最佳性能，并在不同形状的 Transformer 块上实现了实际加速。

Abstract

Training large transformers is slow, but recent innovations on gpu architecture gives us an advantage. NVIDIA Ampere GPUs can execute a fine-grai

transformers pre-training fine-grained accelerate gpu

发现论文，激发创造

加速稀疏深度神经网络

介绍了 NVIDIA Ampere GPU 架构中的稀疏张量核心 (Sparse Tensor Cores)，它们利用了 2:4 的稀疏模式，通过两倍的数学吞吐量加速了稠密矩阵单元，并提出了一种简单的工作流程以训练满足 2:4 稀疏模式和保持准确性的网络，从而在稀疏张量核心上实现精确模型的高效部署。

Apr, 2021

加速稀疏神经网络的训练：一种可以证明有效的 N:M 可转换掩码发现方法

本研究提出了一种新的称为掩码多样性的度量方法来降低 DNN 的内存占用，并介绍了一种可同时用于前向和后向传递的新型可转置细粒度稀疏掩码，通过使用最小成本流问题来寻找最优的可转置掩码，并且还提出了一种将无结构稀疏模型转换为 N:M 细粒度块稀疏模型的方法。

Feb, 2021

利用 GPU 友好的稀疏化和量化增强视觉 Transformer

本文通过应用 2:4 结构稀疏化与量化方法，并在裁剪和量化进程中使用混合策略知识蒸馏，设计了一种压缩方案，可以在几乎无损精度降低的情况下将视觉变压器模型的大小减少 6.4-12.7 倍并提高实际部署性能。

May, 2023

使用四位整数训练变压器

本文提出了一种使用 INT4 算法进行 transformer 训练的方法，以实现低精度的前向和后向传播，并通过 Hadamard 量化器和位分裂等技术处理异常值和稀疏梯度，从而实现在当前型号 GPU 上完成快速的模型训练。

Jun, 2023

Transformer 模型的快速后训练剪枝框架

本文提出一种基于结构化稀疏方法的快速 Transformer 模型剪枝框架，无需重新训练即可保持高准确度，在 GLUE 和 SQuAD 数据集中分别实现了 2 倍的 FLOPs 减少和 1.56 倍的推理速度提升，在单个 GPU 上不到 3 分钟即可完成模型修剪。

Mar, 2022

加速训练 Transformer 模型的多层框架

我们提出了一个多层框架，通过合并和解散以及插值操作来加速训练，从而降低了 BERT/GPT-Base 模型的计算成本约 20%，以及 BERT-Large 模型的计算成本高达 51.6%，同时保持了性能。

Apr, 2024

FinGPT-HPC: 高性能计算在金融应用中高效地预训练和微调大型语言模型

通过利用低秩结构以及量化参数，本论文提出了一种高性能的基于 GPU 的方法用于预训练和微调大型语言模型，以实现金融应用，并取得了较快的速度和高模型压缩比，同时保持了很高的准确率。

Feb, 2024

Transformer 中鲁棒性 N:M 稀疏训练的渐进梯度流

现有稀疏训练方法在高稀疏度区域存在模型质量下降的问题，本文通过限制梯度传递以减少梯度噪声，提供了一种改善高稀疏度区域视觉和语言模型性能的方法，并针对模型精度和训练计算成本的权衡问题进行了评估。

Feb, 2024

深度学习的稀疏 GPU 内核

本文提出一种基于稀疏矩阵的计算优化方法，通过对深度学习应用中的稀疏矩阵进行深入研究，开发出可用于稀疏矩阵与密集矩阵乘法和采样密集 - 密集矩阵乘法的高性能 GPU 核，实现了神经网络模型的加速和内存节省。

Jun, 2020

低精度和稀疏性加速深度卷积网络

本研究旨在通过采用极低精度（2 位）权重网络，并在零值上进行操作跳过以提高计算效率和性能，以在低精度网络下获得更高精度。实验结果表明，与全精度网络相比，在并非影响相似准确度的情况下，计算需求降低了约 3 倍，且在 Imagenet 物体分类挑战上取得了最高报道准确度。为了充分利用低精度网络优势，研究小组开发了一种深度学习加速器核心 dLAC，可实现每平方毫米单精度浮点运算的 TFLOP 当量，半精度时可达到每平方毫米的 2 个 TFLOP。

Oct, 2016