Transformer 屏蔽微调的梯度稀疏化

Jul, 2023

Gradient Sparsification For Masked Fine-Tuning of Transformers

James O' Neill, Sourav Dutta

TL;DR我们提出了 GradDrop 和其变体，一类梯度稀疏化方法，通过在反向传播过程中掩盖梯度作为梯度噪声来规范预训练语言模型，从而提高整体微调性能。在多语种 XGLUE 基准测试中的广泛实验表明，GradDrop 在中间预训练中使用额外翻译数据的方法上具有竞争力，并且优于标准的微调和渐进解冻方法。后续分析显示了 GradDrop 在未经训练的语言上如何提高性能，如资源匮乏的语言。

Abstract

fine-tuning pretrained self-supervised language models is widely adopted for transfer learning to downstream tasks. fine-tuning can be ach

fine-tuning pretrained self-supervised language models gradual unfreezing gradient sparsification graddrop

发现论文，激发创造

SPDF：大型语言模型的稀疏预训练和密集微调

本文提出了一种基于稀疏先训练和密集微调的预训练语言模型方法，可将训练 FLOPs 的数量降低到原来的 2.5 倍，同时保持与密集基线相同的下游任务准确性。该方法为训练大规模 GPT 模型提供了一个可行的方向。

Mar, 2023

信息引导的正则化用于微调语言模型

传统的预训练 - 微调策略已被视为现代语言建模中的转移学习策略，但需要更具目标敏感性的参数正则化方法以实现更平滑的转移学习。本文通过信息论的角度研究了预训练损失函数在任务敏感参数上的影响，并利用研究结果提出了一种新颖的用于改善模型正则化和下游泛化性能的 dropout 方法，名为 guided dropout。通过实证评估表明，相比于标准基线，在数据稀缺的情况下，我们的正则化方法始终能够得到更好的性能。

Jun, 2024

利用渐进式层丢弃加速基于 Transformer 的语言模型训练

本文提出了基于渐进式层丢弃的方法，通过模型结构和训练技术的提升效率，加速了基于 Transformer 的语言模型的训练，相较于基准实验可以在每个样本上平均节省 24% 的时间，让预训练速度提高 2.5 倍，同时保持强的知识可迁移性。

Oct, 2020

用于跨语言迁移的可组合稀疏微调

本研究提出了一种新的微调方法，使用模板细分，减少模型参数，并结合多种语言的神经网络，取得了优于适配器微调的零 - shot 跨语言转移性能。

Oct, 2021

超越大小：梯度如何塑造大型语言模型的剪枝决策

预训练的大型语言模型的梯度为基础的模型修剪器（GBLM-Pruner）通过利用卡尔曼几何中的几何相互关联性明显胜过其他竞争对手，并在各种语言评估中超过了幅度修剪、Wanda 和 SparseGPT。

Nov, 2023

精调预训练大型语言模型中的稀疏是足够的

通过研究下游领域的损失函数从随机初始化到预训练初始化的变换，本文揭示了参数梯度稀疏性的特性，提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT)，并在多个任务上验证了其有效性。

Dec, 2023

AUTOSPARSE: 深度神经网络稀疏训练自动化

本文提出通过渐进式变化策略的梯度退火（gradient annealing，GA）以及最新的可学习剪枝方法相结合的自动稀疏训练算法 AutoSparse，在 ImageNet-1K 数据集上表现优异，80% 稀疏 ResNet50 的训练和推断 FLOPS 减少分别达到 2 倍和 7 倍。与当前最好的稀疏到稀疏（sparse-to-sparse）方法 MEST 的表现相似，但使用的训练和推理 FLOPS 分别多 12％和 50％不到。

Apr, 2023

规范化的蒙版调整：揭示预训练视觉语言模型中的隐藏知识

我们设计了一种名为正则化掩码调优的新型调优方法，在下游任务中通过学习的选择来屏蔽网络参数，从而将前期训练阶段中隐藏的有用知识重新引入到视觉语言模型中，通过实验证明了这种方法在不同数据集上的优越性能。

Jul, 2023

具有差分隐私的梯度稀疏化，实现高效的无线联合学习

通过设计基于随机稀疏化算法的梯度稀疏化联邦学习框架，该框架在无线信道上进行训练，提升了训练效率且不牺牲收敛性能，同时降低了差分隐私所引起的性能下降和无线信道传输参数数量。

Apr, 2023

SPAFIT: 分层渐进调适微调预训练大型语言模型

本研究提出一种基于模型不同层次具有语言知识定位的 PEFT 方法，称为 Stratified Progressive Adaptation Fine-tuning（SPAFIT）。我们在 GLUE 基准测试中进行的实验证明，我们的 SPAFIT 方法在仅微调其他方法调整参数的一小部分情况下，优于其他 PEFT 方法。

Apr, 2024