针对大语言模型微调的参数高效稀疏化

IJCAIMay, 2022

针对大语言模型微调的参数高效稀疏化

Parameter-Efficient Sparsity for Large Language Models Fine-Tuning

Yuchao Li, Fuli Luo, Chuanqi Tan, Mengdi Wang, Songfang Huang...

TL;DR该研究提出了参数有效的稀疏训练 (PST) 方法，通过减少可训练参数的数量以使得稀疏训练资源有效并具有参数效益，从而解决了稀疏训练时计算开销和内存占用的问题，在 BERT，RoBERTa 和 GPT-2 等网络上得到了有效验证。

Abstract

With the dramatically increased number of parameters in language models, sparsity methods have received ever-increasing research focus to compress and accelerate the models. While most research focuses on how to accurately retain appropriate weights while maintaining the performance of

sparsity methods parameter-efficient sparse training compressed model large-scale language models data-driven weight importance

发现论文，激发创造

SPDF：大型语言模型的稀疏预训练和密集微调

本文提出了一种基于稀疏先训练和密集微调的预训练语言模型方法，可将训练 FLOPs 的数量降低到原来的 2.5 倍，同时保持与密集基线相同的下游任务准确性。该方法为训练大规模 GPT 模型提供了一个可行的方向。

Mar, 2023

利用稀疏性和数据流高效训练大型语言模型

本论文演示了一种使用稀疏性和数据流的端到端训练流程，用于对一个大型语言模型（13 亿 GPT）进行高效训练，能够成功训练出与稠密模型相同质量的结果，并获得 4.5 倍于基线的端到端加速。

Apr, 2023

SPP：稀疏保存的参数高效微调大型语言模型

介绍了一种基于稀疏保持参数高效微调的方法，通过轻量级可学习的列和行矩阵对稀疏大语言模型的权重进行优化，保持修剪过的预训练模型的结构和稀疏性，显著提升了稀疏大语言模型的性能。

May, 2024

SPT：使用稀疏化高效微调基于 Transformer 的语言模型

我们提出了 SPT 系统，通过引入稀疏性来高效地微调基于 Transformers 的模型，减少内存消耗，并且在各种模型配置上优于优化的基准模型，将峰值内存消耗降低了多达 50%，加速微调速度高达 2.2 倍。

Dec, 2023

精调预训练大型语言模型中的稀疏是足够的

通过研究下游领域的损失函数从随机初始化到预训练初始化的变换，本文揭示了参数梯度稀疏性的特性，提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT)，并在多个任务上验证了其有效性。

Dec, 2023

大型预训练模型中基本稀疏性的出现：重要的权重

本文 comprehensively 研究了 multiple pre-trained vision and language transformers 的 induced sparse patterns，进一步导出了 essential sparsity 和 abrupt sparsification 两个主要发现，同时研究发现大规模 pre-training 能够缩减模型大小（参数数量），且 self-supervised learning 会比 supervised learning 对模型压缩效果更好。

Jun, 2023

一次性剪枝：稀疏预训练语言模型

通过结合权重剪枝和模型蒸馏技术，我们提出了一种新的方法，用于训练稀疏的预训练变压器语言模型，这些模型可以快速高效地用于各种自然语言处理任务，并保持其稀疏性，同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识，是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。

Nov, 2021

快速可控的后训练稀疏性：使用全局约束在几分钟内学习最佳稀疏分配

通过结合可微的桥接函数和可控的优化目标，我们提出了一种快速且可控的后向训练稀疏性（FCPTS）框架，使得在几分钟内可以实现快速和准确的稀疏性分配学习，并保证收敛到预定的全局稀疏率。利用这些技术，我们能够大幅超越现有的方法，在 80% 的稀疏率下，ResNet-50 在 ImageNet 上取得超过 30% 的改进。

May, 2024

稀疏最大更新参数化：一种稀疏训练动态的整体方法

通过重新参数化超参数，SμPar 可以在不同的稀疏度级别和模型宽度变化时实现相同的最优超参数值，以解决稀疏神经网络的挑战，并在大规模语言建模中实现高达 8.2％的损失改进。

May, 2024

无需增加延迟的参数高效微调

本文提出了一种任务不可知的生成稀疏掩码的方法，仅使用预训练参数的振幅信息，可以显著提高性能和存储效率，并引入了一种新颖的适配器技术，可以直接应用于预训练参数，与全细调速度相同。

May, 2023