Alexa 教师模型：自然语言理解系统的预训练和蒸馏多十亿参数编码器

KDDJun, 2022

Alexa 教师模型：自然语言理解系统的预训练和蒸馏多十亿参数编码器

Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems

PDF

Jack FitzGerald, Shankar Ananthakrishnan, Konstantine Arkoudas, Davide Bernardi, Abhishek Bhagia...

TL;DR本文介绍了一个在虚拟助手 NLU 组件中进行的从预训练到蒸馏的实验，使用了介于 700M 到 9.3B 之间的参数数量不同的编码器，并从中收缩了介于 17M-170M 的较小模型，发现在预训练部分使用领域内数据可以提高模型的性能。评估结果表明，最终训练的模型性能比 DistillBERT 和 XLM-R 要好。

Abstract

We present results from a large-scale experiment on pretraining encoders with non-embedding parameter counts ranging from 700M to 9.3B, their subsequent distillation into smaller models ranging from 17M-170M para

pretraining distillation virtual assistant in-domain data nlu

发现论文，激发创造

用未标记的转移数据将 BERT 蒸馏为简单的神经网络

该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题，探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明，使用软蒸馏和利用教师模型的中间表示，学生模型的性能可以进一步提高，而在低资源环境下，学生模型在保证与教师模型性能基本持平的情况下，可实现最多 26 倍的压缩比，针对多语言环境的扩展实验结果更是惊人。

Oct, 2019

XtremeDistil：大规模多语言模型的多阶段蒸馏

本研究聚焦于多语言实体识别，探究知识蒸馏压缩预训练语言模型的多种策略，通过利用教师模型内部表示的分阶段优化方案，成功将 MBERT 模型压缩了 35 倍参数，51 倍批量推理的延迟，同时保持在 41 种语言中的 95％的 F1 分数。

Apr, 2020

来自混合词汇训练的极小 BERT 模型

本文通过使用混合词汇训练来对齐师生嵌入，提出了一种压缩 BERT-LARGE 的知识蒸馏方法，使其成为一个具有更小词汇表和隐藏维数的无任务模型，这个模型的经验结果表明它比其他压缩 BERT 模型在语言理解基准和实际对话任务中具有更好的性价比。

Sep, 2019

TinyBERT：自然语言理解的 BERT 蒸馏模型

通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架，可以有效地将大型 BERT 中的知识转移到小型 TinyBERT，从而在维持准确性的同时加速推理和减少模型大小，TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能，模型大小约为 BERT 的 1/8，推理速度约为 BERT 的 1/10。

Sep, 2019

何时需要数十亿字的预训练数据？

通过四种探究方法，我们发现语言模型只需要大约 100M 的单词量，就能够可靠地编码大多数句法和语义特征，而大量的数据需要用来获得足够的常识和其他技能，以掌握典型的下游 NLU 任务。

Nov, 2020

加载所需：多语言 BERT 的较小版本

本文探讨如何通过减少多语言模型中的词汇量来生成更小且性能相当的模型，研究结果表明，相比蒸馏的方法，此种方法能在保持性能的情况下，将模型总参数减少达 45% 左右。

Oct, 2020

一个老师足矣？多个教师的预训练语言模型蒸馏

本文提出了一种多教师知识蒸馏框架 MT-BERT，可以从多个教师 PLMs 中训练高质量的学生模型，并在三个基准数据集上验证了其压缩 PLMs 的有效性。

Jun, 2021

一位教师胜过百万句指令

我们提出了一种改进的训练方法，使用更大的模型的知识来提高大型语言模型的训练效果，同时利用领域专家模型进行领域对齐，通过这种方法，在性能上超过了具有更大参数数量的现有语言模型。

Jun, 2024

MiniALBERT: 基于参数高效递归 Transformer 的模型蒸馏

本文介绍 MiniALBERT，一种将已有的完全参数化的语言模型转换为压缩递归模型的技术，探讨了论文中提出的模型蒸馏、跨层参数共享、瓶颈适配器等技术对压缩模型的 fine-tuning 效果以及在多种领域的实验结果。

Oct, 2022

MiniLM: 预训练 Transformer 的深度自注意力蒸馏的任务无关压缩

本文通过对最后一层 Transformer 模型中的自我注意模块的蒸馏，提出了一种简单有效的压缩大型预训练模型的方法，同时引入了新的 “缩放点积” 深层自我注意知识，并在这个基础上设计了一个小留学生模型来减少参数量和延迟，实现了对 GLUE 质量基准测试的有效超越。

Feb, 2020