加载所需:多语言 BERT 的较小版本
本文通过使用混合词汇训练来对齐师生嵌入,提出了一种压缩 BERT-LARGE 的知识蒸馏方法,使其成为一个具有更小词汇表和隐藏维数的无任务模型,这个模型的经验结果表明它比其他压缩 BERT 模型在语言理解基准和实际对话任务中具有更好的性价比。
Sep, 2019
本研究探讨了两种技术,以在低资源设置中训练单语言 TLM,结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。
Dec, 2022
使用 RemBERT 模型的实验表明,模型大小限制了跨语言转换的效率,将知识从一名教师传递到以相关语言训练的多个学生可以通过蒸馏解决这个问题,该方法可以使性能提高 10.5%,并仅使用 RemBERT 的三分之一的参数即可达到 92.6%的性能。
Oct, 2021
本文介绍通过知识蒸馏和 Masked Language Modelling (MLM) 目标函数得到的六个轻量化模型 (BioDistilBERT、BioTinyBERT、BioMobileBERT、DistilBioBERT、TinyBioBERT 和 CompactBioBERT),并在三个生物医学任务中进行评估。实验表明,这些模型与体积更大的 BioBERT-v1.1 性能相当,其速度更快而且更易于使用。
Sep, 2022
本研究探讨了跨语言语言模型预训练的有效性,并且提出了两个参数分别为 3.5B 和 10.7B 的大型多语言掩码语言模型,这两个新模型分别称为 XLM-R XL 和 XLM-R XXL,在 XNLI 中的平均准确率比 XLM-R 高 1.8%和 2.4%,同时处理了 99 种以上的语言,优于 RoBERTa-Large 模型,表明拥有更大容量的预训练模型可以在高资源语言上取得强大的性能,同时极大地改善了低资源语言。
May, 2021
本论文旨在训练适用于韩语的小型语言模型 KR-BERT,通过采用较小的词汇表和数据集、优化令牌化方法,提高了韩语语言现象的捕捉效率,实现了与大型语言模型相媲美甚至更优的性能。
Aug, 2020
本文介绍了一个在虚拟助手 NLU 组件中进行的从预训练到蒸馏的实验,使用了介于 700M 到 9.3B 之间的参数数量不同的编码器,并从中收缩了介于 17M-170M 的较小模型,发现在预训练部分使用领域内数据可以提高模型的性能。评估结果表明,最终训练的模型性能比 DistillBERT 和 XLM-R 要好。
Jun, 2022
通过知识蒸馏的预训练阶段,可以将 BERT 模型的大小缩小 40%,同时保持 97%的语言理解能力并且速度提升 60%,这种方法被称为 DistilBERT,并可为边缘设备上的计算提供良好的性能
Oct, 2019
通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架,可以有效地将大型 BERT 中的知识转移到小型 TinyBERT,从而在维持准确性的同时加速推理和减少模型大小,TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能,模型大小约为 BERT 的 1/8,推理速度约为 BERT 的 1/10。
Sep, 2019
探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究,取得了可接受的性能损失并显著提高了推理效率,最高压缩至原模型的 1/48,且在 GLUE 基准测试中取得了与原模型相当或略优的表现,该方法相对于蒸馏等现有的压缩方法独立有效。
May, 2022