针对预训练语言模型的标签正则化微调研究

May, 2022

针对预训练语言模型的标签正则化微调研究

Towards Understanding Label Regularization for Fine-tuning Pre-trained Language Models

Ivan Kobyzev, Aref Jafari, Mehdi Rezagholizadeh, Tianda Li, Alan Do-Omri...

TL;DR该研究旨在研究标签正则化技术在 NLP 中的使用以及它是否需要老师网络进行指导，经过对 BERT、RoBERTa 和 GPT 等 PLMs 进行 600 多次试验，发现预训练本身已经具有正则化的作用，因此在 fine-tuning 时，添加额外的标签正则化并不必要。

Abstract

knowledge distillation (KD) is a prominent neural model compression technique which heavily relies on teacher network predictions to guide the training of a student model. Considering the ever-growing size of

knowledge distillation neural model compression label regularization pre-trained language models fine-tuning

发现论文，激发创造

通过标签平滑正则化重新审视知识蒸馏

本文挑战了使用强大的 teacher model 教授弱 student model 的共识，详细阐述了 KD 和 label smoothing regularization 之间的关系，提出了 Teacher-free Knowledge Distillation（Tf-KD）框架，通过自学和手动设计正则化分布，实现了与正常 KD 相媲美的性能。

Sep, 2019

知识蒸馏 ≈ 标签平滑：事实还是谬误？

本文探讨知识蒸馏和标签平滑之间的关系，实验结果表明在大多数情况下，它们所驱动的模型不确定性完全相反，知识蒸馏是一种直接从老师模型传递知识的方法。

Jan, 2023

中间层蒸馏在压缩语言模型中的再次探讨：过拟合的角度

本文介绍了一种名为一致性正则化的中间层知识蒸馏方法，有效解决了其他中间层知识蒸馏方法容易过拟合的问题，并在模型蒸馏方面表现高效。

Feb, 2023

学生作为噪声教师的内在降噪器

通过伪标签学习，将大型语言模型（LLM）的知识在低数据环境中转移给专门的模型，本研究探索了使用含噪声教师模型进行知识蒸馏的情况，并发现学生模型在知识蒸馏过程中能够生成比教师标签更准确的预测结果，表明其具有去噪噪声教师标签的内在能力，基于此发现，我们提出了使用对等建议（Peer-Advised KD）来改进标准知识蒸馏方法，实验证明，使用 50 个人工标注数据，Peer-Advised KD 的性能优于 LLM 约 5％，甚至与使用 750 个人工标注数据进行的标准监督微调相媲美。

Dec, 2023

基于伪目标训练的语言生成知识蒸馏系统研究

研究自然语言生成（NLG）中的知识蒸馏技术优化模型并生成具体的文本任务，提出伪目标（PT）数据增强方法并应用于双方产生的多个 PT 的词级 KD，从而有效地压缩模型。

May, 2023

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

知识蒸馏与固定计算预算下的从零开始训练对比

相对于基于标准语言模型（LM）的从头开始预训练，知识蒸馏（KD）需要额外进行一次前向传递，通常所用的教师模型大大超过目标学生模型。本研究比较了从头开始预训练与几种 KD 策略在计算资源和预训练数据方面的表现，结果发现虽然从头开始预训练与固定计算资源下的普通 KD 相媲美，但更复杂的 KD 策略，即 TinyBERT 和 MiniLM，优于从头开始预训练。

Apr, 2024

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

通过标签修订和数据选择改进知识蒸馏

该论文提出了一种解决知识蒸馏中错误监督的问题的方法，即通过标签修正纠正教师模型的错误预测，并引入数据选择技术以减少错误监督的影响，实验证明该方法的有效性，并表明该方法可以与其他蒸馏方法相结合，提高其性能。

Apr, 2024

自回归语言模型的知识蒸馏再探讨

通过分析发现大型语言模型在教学学生模型时会导致性能下降，设计了一种自适应教学方法（ATKD）来改进知识蒸馏，并通过大量实验验证其在各种模型类型和规模上均能显著提高性能（平均得分增加至多 + 3.04%）。更重要的是，ATKD 能有效改善学生模型的泛化能力。

Feb, 2024