一款高效稀疏推断软件加速器，用于基于转换器的语言模型在CPU上

Jun, 2023

一款高效稀疏推断软件加速器，用于基于转换器的语言模型在CPU上

An Efficient Sparse Inference Software Accelerator for Transformer-based Language Models on CPUs

Haihao Shen, Hengyu Meng, Bo Dong, Zhe Wang, Ofir Zafrir...

TL;DR本论文提出了一种基于定常块大小的高效稀疏深度学习推断软件堆栈，可以将稀疏加速器应用于Transformer-based语言模型，我们的稀疏加速器在处理各种GEMM形状时，比现有的稀疏库快一个数量级，在Xeon上具有高效的性能。

Abstract

In recent years, transformer-based language models have become the standard approach for natural language processing tasks. However, stringent throughput and latency requirements in industrial applications are limiting their adoption. To mitigate the gap, →

发现论文，激发创造

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的transformer模型的简便、高效的内部层模型并行方法，并且通过在WikiText103，LAMBADA和RACE数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

搜索用于语言建模的高效Transformer

通过搜索一种更高效的变体，即 Primer，我们旨在降低 Transformer 模型的训练和推理成本，并且我们证实 Primer 可以在不添加额外调整的情况下显著加快训练速度。

Sep, 2021

一次性剪枝：稀疏预训练语言模型

通过结合权重剪枝和模型蒸馏技术，我们提出了一种新的方法，用于训练稀疏的预训练变压器语言模型，这些模型可以快速高效地用于各种自然语言处理任务，并保持其稀疏性，同时我们进一步使用量化感知训练来将这些稀疏模型压缩为8位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识，是目前压缩-to-准确度比率最好的压缩BERT-Base、BERT-Large和DistilBERT方法。

Nov, 2021

CPU 上的快速 DistilBERT

本文介绍了一种新的在CPU上创建和运行快速Transformer模型的流水线，利用硬件感知剪枝、知识蒸馏和量化等模型压缩技术，通过优化稀疏和量化操作库的运行时引擎来提高推理效率，创造了一个Fast DistilBERT模型，其通过问题回答SQuADv1.1基准测试表现良好，性能比现有的Neural Magic's DeepSparse运行时性能提高了高达50%，比ONNX计算时性能提升了最多4.1倍。

Oct, 2022

大语言模型推理加速的稀疏微调

我们研究了大型语言模型的精确稀疏微调问题，通过引入稀疏权重在专门的任务上微调预训练的语言模型。我们提出了一种称为SquareHead的基于L2范数的蒸馏方法，能够在高稀疏率下实现准确恢复，并展示了稀疏语言模型在CPU和GPU执行中的速度提升。

Oct, 2023

SPT：使用稀疏化高效微调基于Transformer的语言模型

我们提出了SPT系统，通过引入稀疏性来高效地微调基于Transformers的模型，减少内存消耗，并且在各种模型配置上优于优化的基准模型，将峰值内存消耗降低了多达50%，加速微调速度高达2.2倍。

Dec, 2023

SliceGPT：通过删除行和列来压缩大型语言模型

SliceGPT是一种新的后训练稀疏化方法，可以将模型的参数减少25％，同时保持密集模型的99％，99％和90％的性能，并减少内存和计算需求。

Jan, 2024

通过更稀疏的选择提高稀疏模型的效率

提出了 ool，一种新颖的MoE模型，通过利用小型专家和基于阈值的路由器，实现了对模型性能的提升，并在减少计算负载50%以上的同时，不牺牲性能。

Feb, 2024

AI加速器上基础模型的推理优化

Transformer架构的大型语言模型和AI加速器的推断优化技术在生成式人工智能中扮演重要角色，并讨论了系统优化、关注力计算和模型压缩等方面的技术。

Jul, 2024

使用半结构自适应稀疏训练修剪大型语言模型

本研究解决了大型语言模型（LLMs）在部署时面临的参数数量和内存消耗问题，通过提出了一种称为自适应稀疏训练（AST）的新训练流程，克服了传统无训练剪枝方法的性能下降。AST通过知识蒸馏和自适应选择更优的剪枝策略，显著缩小了稠密模型与稀疏模型之间的性能差距，结合量化方法时可实现高达16倍的模型压缩，同时保持较小的性能损失。

Jul, 2024