ERNIE 3.0 Tiny: 简单而让人沮丧的方法提高任务无关的蒸馏泛化能力

Jan, 2023

ERNIE 3.0 Tiny: 简单而让人沮丧的方法提高任务无关的蒸馏泛化能力

ERNIE 3.0 Tiny: Frustratingly Simple Method to Improve Task-Agnostic Distillation Generalization

Weixin Liu, Xuyi Chen, Jiaxiang Liu, Shikun Feng, Yu Sun...

TL;DR提出了一种利用多任务学习的方法来缩小大型预训练语言模型和小型模型之间的泛化差距，使其能够在任务无关的场景下实现直接微调，并且表现相当。实验证明，这种方法产生了一个具有更好泛化性能的学生，显著优于现有基线方法，在任务无关蒸馏方面，该方法在相应的领域内、领域外和低资源数据集上，以及 SQuAD 和四个 GLUE 任务方面，甚至超过了 8 倍大的 BERT 模型。此外，通过结合 ERNIE 3.0，在 10 个中文数据集上获得了最新的实验结果。

Abstract

task-agnostic knowledge distillation attempts to address the problem of deploying large pretrained language model in resource-constrained scenarios by compressing a large pretrained model called teacher into a smaller one called student such that the student can be directly finetuned o

task-agnostic knowledge distillation multi-task learning student-teacher model compression generalization gap state-of-the-art result

发现论文，激发创造

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

XtremeDistilTransformers：任务无关蒸馏中的任务转移

本文提出了一种任务不可知的知识蒸馏框架 ——XtremeDistilTransformers，利用任务特定方法学习出一个通用模型，可以应用于任意语言和任务，并研究了蒸馏过程中多个源任务、扩充资源和模型架构的可迁移性。在多项任务中验证了该模型的性能，并发布了三个蒸馏的任务不可知检查点，其中最小的检查点包含 1300 万个参数，实现了多项任务的 SOTA 表现。

Jun, 2021

大型语言模型蒸馏不需要教师

本文介绍了一种针对大型语言模型的任务无关的零样本评估蒸馏方法，该方法使用截断版本的大模型作为初始化，并使用语言建模目标继续预训练该模型，已从根本上解决了对任务特定学习数据的依赖。本方法可以在无法将教师和学生都放入 GPU 内存的情况下将模型尺寸有效减少 50％，并在 13 个零样本端到端任务上达到了与基准蒸馏方法相当或超越的性能和准确性，计算效率提高了 1.5 倍。

May, 2023

编码器 - 解码器语言模型的任务无关蒸馏

通过探讨 MiniEnD 方法来针对语言模型（LMs）的无特定任务的精炼，以及针对编码 - 解码 LMs 的精炼，旨在让它们保持性能同时实现计算有效，从而在语言理解和摘要制作方面得到好的效果，而且 MiniEnD 与其他备选方案相比具有良好的竞争力，同时还探索了扩展 MiniEnD 到 3B 编码器 - 解码器语言模型的跨越式提升。

May, 2023

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

通过知识蒸馏提高用于自然语言理解的多任务深度神经网络

本文使用知识蒸馏方法对多任务深度神经网络进行优化，提供了解决集成大型神经网络问题的方法，并在 GLUE 基准测试中取得了显著的成果。

Apr, 2019

HomoDistil: 预训练 Transformer 的同拓扑无关任务蒸馏

本文提出了一种基于迭代剪枝的新型无需任务特定指导的蒸馏方法 ——Homotopic Distillation（HomoDistil），旨在实现在小的计算成本和存储占用下，通过迁移知识来产生一个紧凑的预训练模型，并通过大量实验表明，与现有基线方法相比，HomoDistil 具有明显的优势。

Feb, 2023

AD-KD: 基于属性的知识蒸馏用于语言模型压缩

本文提出了一种基于 Integrated Gradients 的新颖的归因驱动知识蒸馏方法，它探索了教师模型背后的 token-level 解释，并将知识转移给学生模型，进一步探索了多视角归因蒸馏。实验证明我们的方法在 GLUE 基准测试中具有比其他现有方法更好的性能。

May, 2023

MLKD-BERT：预训练语言模型的多层知识蒸馏

我们提出了一种新颖的知识蒸馏方法 MLKD-BERT，在教师 - 学生框架中蒸馏多层级知识。对 GLUE 基准和提取型问答任务的大量实验表明，我们的方法在 BERT 上胜过了最先进的知识蒸馏方法。此外，MLKD-BERT 可以灵活设置学生注意力头数，能够显著减少推理时间并且性能损失很小。

Jul, 2024

TinyBERT：自然语言理解的 BERT 蒸馏模型

通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架，可以有效地将大型 BERT 中的知识转移到小型 TinyBERT，从而在维持准确性的同时加速推理和减少模型大小，TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能，模型大小约为 BERT 的 1/8，推理速度约为 BERT 的 1/10。

Sep, 2019