如何操作？在 Transformer 微调期间冻结图层

Nov, 2019

如何操作？在 Transformer 微调期间冻结图层

What Would Elsa Do? Freezing Layers During Transformer Fine-Tuning

Jaejun Lee, Raphael Tang, Jimmy Lin

TL;DR本文研究使用预训练的 transformer-based 语言模型 BERT 和 RoBERTa 在文本关系、语义相似性、情感分析和语言可接受性等标准任务中微调不同层数的效果，结果表明微调最后一层的四分之一即可达到 90% 的原始质量，微调所有层并不总是有更好的效果。

Abstract

pretrained transformer-based language models have achieved state of the art across countless tasks in natural language processing. These models are highly expressive, comprising at least a hundred million parameters and a dozen layers. Recent evidence suggests that only a few of the fi

pretrained transformer-based language models bert roberta fine-tuning downstream tasks

发现论文，激发创造

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

关于语言编码器的手术微调

为适应新任务，研究发现只对神经语言编码器的部分层进行微调就足以获得接近甚至更好的性能，提出一种基于 Fisher 信息矩阵对候选层进行选择的高效度量指标，并通过在不同语言编码器和任务上的实验证明该指标能够有效选择层以获得强大的下游性能。

Oct, 2023

通过主动学习对 BERT 进行微调，以提高低资源自然语言理解能力

本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法，通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明，通过最大化从未标记数据池中查询的模型的近似知识收益，可提高模型性能。最后，我们演示并分析了语言模型冻结层的好处，以减少可训练参数的数量，使其更适用于低资源环境。

Dec, 2020

预训练 Transformer 模型删除层的影响

通过剪枝方法，本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献，并观察剪枝对下游 GLUE 任务的影响，结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40％而保持最多 98％的原始性能，并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。

Apr, 2020

如何为文本分类微调 BERT?

研究 BERT 语言模型在文本分类任务上的微调方法，提供一般的解决方案，并在 8 个广泛研究的文本分类数据集上取得了最新的最好结果。

May, 2019

BERT Fine-tuning 中嵌入向量发生了什么？

研究表明，微调 BERT 模型会显著影响其顶部层的表示，尤其是依赖解析涉及模型的大部分，而 SQuAD 和 MNLI 涉及的则较浅。此外，在域外句子的表示方面，微调的影响较弱，这表明模型泛化有待改进。

Apr, 2020

面向预训练代码模型的高效微调：实验研究及其发展方向

该研究通过分层预训练表示的实验研究发现了不同层数与源代码信息的关系，从而提出了 Telly 技术，通过层冻结来有效地微调预训练代码模型，从而降低了学习参数和时间成本。

Apr, 2023

层层为重要且不同：每一层都重要 BERT

该研究介绍了针对数据高效预训练语言模型的一种新型 Transformer 体系结构修改方法。该方法通过参与 BabyLM 挑战赛，赢得了 extsc {strict} 和 extsc {strict-small} 两个赛道。我们的方法允许每个 Transformer 层选择处理前一层的哪些输出。经验证实验结果显示，该简单的修改具有潜力，且不同层的重要性不尽相同。

Nov, 2023

基于 Transformer 的细调编码器在土耳其语言理解任务中的应用

我们在这项研究中，为土耳其语提供了基于 Transformer 模型的 BERTurk 模型，并进行了多个下游任务的微调和评估，包括命名实体识别、情感分析、问题回答和文本分类。与其他基线方法相比，我们的研究在土耳其语中显著提高了性能，并公开发布了这四个微调模型和资源，以支持其他土耳其研究人员和应用。

Jan, 2024

基于语义的层冻结方法：高效微调语言模型

通过对语言模型推理过程进行语义分析，我们提出了在层级上进行参数微调的方法，通过估计每个模型层的微调效果以及缩小微调的范围，我们的方法在 LM 微调中表现出有效且高效的特点。

Jun, 2024