紧缩模型的经济微调：蒸馏还是注释？

ACLMay, 2023

紧缩模型的经济微调：蒸馏还是注释？

Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models

Junmo Kang, Wei Xu, Alan Ritter

TL;DR通过在六个不同的 NLP 任务上进行实验，本文发现从 T5-XXL (11B) 到 T5-Small (60M) 的蒸馏通常比注释更多数据来直接训练紧凑型模型（T5-Small (60M)）更具成本效益，同时进一步证明了在不同预算情况下，最大化效用的最佳蒸馏量有所不同。

Abstract

Fine-tuning large models is highly effective, however, inference using these models can be expensive and produces carbon emissions. knowledge distillation has been shown to be a practical solution to reduce inference costs, but the distillation process itself requires significant

knowledge distillation computational resources nlp tasks t5-xxl t5-small

发现论文，激发创造

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

Transformer 转 CNN：用于文本分类的标签稀缺蒸馏方法

这篇论文介绍了一种用蒸馏过程从大型模型中训练出的卷积学生架构，它可以实现 300 倍的推理加速和 39 倍的参数减少，有时学生模型的性能甚至超过了它的老师模型。

Sep, 2019

文本分类的数据精炼

本研究提出了一种新的数据蒸馏方法，使用该方法在文本分类中将大型训练数据集压缩为更小的合成数据集，结果显示使用压缩后的数据集，在保持准确度的前提下只占原始数据集的 0.1%，获得了 90% 左右的性能。

Apr, 2021

精华、适应、精华：为神经机器翻译训练小型、域内模型

本研究探讨了领域自适应设置下，使用序列级别知识蒸馏训练小型、内存高效的机器翻译模型的最佳实践。该研究的大规模实证结果在机器翻译领域中（使用三个语种对三个领域进行测试）表明，最佳性能需要两次平衡知识蒸馏，一次使用通用数据，另一次使用具体领域的数据并调整教师。

Mar, 2020

关于蒸馏的令人惊讶的疗效作为替代预训练小模型的研究

我们提出了一种针对小模型的训练方法，不需要吸收预训练的成本，却能获得相同的性能，并且通过知识蒸馏与对比学习的连接，能够有效地降低计算成本，提高训练速度，同时通过数据增强进一步改善性能。

Apr, 2024

大型语言模型蒸馏不需要教师

本文介绍了一种针对大型语言模型的任务无关的零样本评估蒸馏方法，该方法使用截断版本的大模型作为初始化，并使用语言建模目标继续预训练该模型，已从根本上解决了对任务特定学习数据的依赖。本方法可以在无法将教师和学生都放入 GPU 内存的情况下将模型尺寸有效减少 50％，并在 13 个零样本端到端任务上达到了与基准蒸馏方法相当或超越的性能和准确性，计算效率提高了 1.5 倍。

May, 2023

预训练模型摘要精馏

使用三种不同的压缩学生模型的方法（直接知识蒸馏、伪标签蒸馏和收缩和微调），对当前和过去的最先进的 PEGASUS 和 BART 模型进行压缩蒸馏，在 CNN / DailyMail 数据集上 SFT 方法表现最佳，在更抽象的 XSUM 数据集上伪标签蒸馏方法表现更好。

Oct, 2020

DistilBERT：BERT 的简化版 —— 更小、更快、更便宜、更轻

通过知识蒸馏的预训练阶段，可以将 BERT 模型的大小缩小 40％，同时保持 97％的语言理解能力并且速度提升 60％，这种方法被称为 DistilBERT，并可为边缘设备上的计算提供良好的性能

Oct, 2019

减少、重用、回收：通过蒸馏提高训练效率

本文研究了如何利用蒸馏来提高深度学习模型的训练效率，实验发现，蒸馏在 ResNet-50 和 BERT 模型上可以提高训练速度，尤其是在 BERT 模型初期进行蒸馏可以取得最佳效果。此外，通过对蒸馏方法的一些优化可以进一步提高蒸馏的效率。

Nov, 2022