编码器 - 解码器语言模型的任务无关蒸馏

May, 2023

编码器 - 解码器语言模型的任务无关蒸馏

Task-agnostic Distillation of Encoder-Decoder Language Models

Chen Zhang, Yang Yang, Jingang Wang, Dawei Song

TL;DR通过探讨 MiniEnD 方法来针对语言模型（LMs）的无特定任务的精炼，以及针对编码 - 解码 LMs 的精炼，旨在让它们保持性能同时实现计算有效，从而在语言理解和摘要制作方面得到好的效果，而且 MiniEnD 与其他备选方案相比具有良好的竞争力，同时还探索了扩展 MiniEnD 到 3B 编码器 - 解码器语言模型的跨越式提升。

Abstract

Finetuning pretrained language models (LMs) have enabled appealing performance on a diverse array of tasks. The intriguing task-agnostic property has driven a shifted focus from task-specific to →

language models distillation encoder-decoder miniend task-agnostic

发现论文，激发创造

大型语言模型蒸馏不需要教师

本文介绍了一种针对大型语言模型的任务无关的零样本评估蒸馏方法，该方法使用截断版本的大模型作为初始化，并使用语言建模目标继续预训练该模型，已从根本上解决了对任务特定学习数据的依赖。本方法可以在无法将教师和学生都放入 GPU 内存的情况下将模型尺寸有效减少 50％，并在 13 个零样本端到端任务上达到了与基准蒸馏方法相当或超越的性能和准确性，计算效率提高了 1.5 倍。

May, 2023

ERNIE 3.0 Tiny: 简单而让人沮丧的方法提高任务无关的蒸馏泛化能力

提出了一种利用多任务学习的方法来缩小大型预训练语言模型和小型模型之间的泛化差距，使其能够在任务无关的场景下实现直接微调，并且表现相当。实验证明，这种方法产生了一个具有更好泛化性能的学生，显著优于现有基线方法，在任务无关蒸馏方面，该方法在相应的领域内、领域外和低资源数据集上，以及 SQuAD 和四个 GLUE 任务方面，甚至超过了 8 倍大的 BERT 模型。此外，通过结合 ERNIE 3.0，在 10 个中文数据集上获得了最新的实验结果。

Jan, 2023

XtremeDistilTransformers：任务无关蒸馏中的任务转移

本文提出了一种任务不可知的知识蒸馏框架 ——XtremeDistilTransformers，利用任务特定方法学习出一个通用模型，可以应用于任意语言和任务，并研究了蒸馏过程中多个源任务、扩充资源和模型架构的可迁移性。在多项任务中验证了该模型的性能，并发布了三个蒸馏的任务不可知检查点，其中最小的检查点包含 1300 万个参数，实现了多项任务的 SOTA 表现。

Jun, 2021

压缩转换器语言模型的任务无关蒸馏方法的比较分析

通过多项实验研究，我们发现基于 MiniLMv2 的 Multi-Head Attention 转移是蒸馏中更优选的方法，并解释了其成功的可能原因。此外，我们还发现基于 Hidden State 转移的方法在精妙的层映射策略下依然是竞争性的基准，而 Output Distribution 转移一直落后于其他方法。研究结果帮助我们为延迟关键应用部署高效且有效的学生模型。

Oct, 2023

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

序列标注的编码器 - 解码器 Transformer 蒸馏

本文提出了一个无幻觉的框架，以序列标记为例，该框架非常适用于蒸馏，追求计算效率的蒸馏方法有望从这些大模型获得的知识中获益，并在多个序列标记数据集上展现了新的卓越表现，证明了这个框架在少量数据学习场景下进行大模型蒸馏的有用性。

Feb, 2023

HomoDistil: 预训练 Transformer 的同拓扑无关任务蒸馏

本文提出了一种基于迭代剪枝的新型无需任务特定指导的蒸馏方法 ——Homotopic Distillation（HomoDistil），旨在实现在小的计算成本和存储占用下，通过迁移知识来产生一个紧凑的预训练模型，并通过大量实验表明，与现有基线方法相比，HomoDistil 具有明显的优势。

Feb, 2023

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

MergeDistill: 使用蒸馏方法合并预训练语言模型

本文提出了 MergeDistill 框架，通过知识蒸馏的方式合并预先训练的多语言模型，旨在快速训练出性能与甚至优于数量级更大的模型，同时强调教师模型的选择对学生模型性能的影响。

Jun, 2021