加载所需：多语言 BERT 的较小版本

Oct, 2020

加载所需：多语言 BERT 的较小版本

Load What You Need: Smaller Versions of Multilingual BERT

Amine Abdaoui, Camille Pradel, Grégoire Sigel

TL;DR本文探讨如何通过减少多语言模型中的词汇量来生成更小且性能相当的模型，研究结果表明，相比蒸馏的方法，此种方法能在保持性能的情况下，将模型总参数减少达 45% 左右。

Abstract

Pre-trained transformer-based models are achieving state-of-the-art results on a variety of Natural Language Processing data sets. However, the size of these models is often a drawback for their deployment in real production applications. In the case of →

pre-trained models transformer multilingual models bert parameter reduction

发现论文，激发创造

来自混合词汇训练的极小 BERT 模型

本文通过使用混合词汇训练来对齐师生嵌入，提出了一种压缩 BERT-LARGE 的知识蒸馏方法，使其成为一个具有更小词汇表和隐藏维数的无任务模型，这个模型的经验结果表明它比其他压缩 BERT 模型在语言理解基准和实际对话任务中具有更好的性价比。

Sep, 2019

MicroBERT：低资源单语 BERT 的参数减少和多任务学习的有效训练

本研究探讨了两种技术，以在低资源设置中训练单语言 TLM，结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。

Dec, 2022

为机器翻译学习紧凑的度量

使用 RemBERT 模型的实验表明，模型大小限制了跨语言转换的效率，将知识从一名教师传递到以相关语言训练的多个学生可以通过蒸馏解决这个问题，该方法可以使性能提高 10.5％，并仅使用 RemBERT 的三分之一的参数即可达到 92.6％的性能。

Oct, 2021

紧凑型医学变压器的有效性

本文介绍通过知识蒸馏和 Masked Language Modelling (MLM) 目标函数得到的六个轻量化模型 (BioDistilBERT、BioTinyBERT、BioMobileBERT、DistilBioBERT、TinyBioBERT 和 CompactBioBERT)，并在三个生物医学任务中进行评估。实验表明，这些模型与体积更大的 BioBERT-v1.1 性能相当，其速度更快而且更易于使用。

Sep, 2022

面向多语言掩码语言建模的大规模 Transformer

本研究探讨了跨语言语言模型预训练的有效性，并且提出了两个参数分别为 3.5B 和 10.7B 的大型多语言掩码语言模型，这两个新模型分别称为 XLM-R XL 和 XLM-R XXL，在 XNLI 中的平均准确率比 XLM-R 高 1.8％和 2.4％，同时处理了 99 种以上的语言，优于 RoBERTa-Large 模型，表明拥有更大容量的预训练模型可以在高资源语言上取得强大的性能，同时极大地改善了低资源语言。

May, 2021

KR-BERT：小规模韩语特定语言模型

本论文旨在训练适用于韩语的小型语言模型 KR-BERT，通过采用较小的词汇表和数据集、优化令牌化方法，提高了韩语语言现象的捕捉效率，实现了与大型语言模型相媲美甚至更优的性能。

Aug, 2020

Alexa 教师模型：自然语言理解系统的预训练和蒸馏多十亿参数编码器

本文介绍了一个在虚拟助手 NLU 组件中进行的从预训练到蒸馏的实验，使用了介于 700M 到 9.3B 之间的参数数量不同的编码器，并从中收缩了介于 17M-170M 的较小模型，发现在预训练部分使用领域内数据可以提高模型的性能。评估结果表明，最终训练的模型性能比 DistillBERT 和 XLM-R 要好。

Jun, 2022

DistilBERT：BERT 的简化版 —— 更小、更快、更便宜、更轻

通过知识蒸馏的预训练阶段，可以将 BERT 模型的大小缩小 40％，同时保持 97％的语言理解能力并且速度提升 60％，这种方法被称为 DistilBERT，并可为边缘设备上的计算提供良好的性能

Oct, 2019

TinyBERT：自然语言理解的 BERT 蒸馏模型

通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架，可以有效地将大型 BERT 中的知识转移到小型 TinyBERT，从而在维持准确性的同时加速推理和减少模型大小，TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能，模型大小约为 BERT 的 1/8，推理速度约为 BERT 的 1/10。

Sep, 2019

探索预训练语言模型的极端参数压缩

探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究，取得了可接受的性能损失并显著提高了推理效率，最高压缩至原模型的 1/48，且在 GLUE 基准测试中取得了与原模型相当或略优的表现，该方法相对于蒸馏等现有的压缩方法独立有效。

May, 2022