来自混合词汇训练的极小 BERT 模型
该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题,探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明,使用软蒸馏和利用教师模型的中间表示,学生模型的性能可以进一步提高,而在低资源环境下,学生模型在保证与教师模型性能基本持平的情况下,可实现最多 26 倍的压缩比,针对多语言环境的扩展实验结果更是惊人。
Oct, 2019
通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架,可以有效地将大型 BERT 中的知识转移到小型 TinyBERT,从而在维持准确性的同时加速推理和减少模型大小,TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能,模型大小约为 BERT 的 1/8,推理速度约为 BERT 的 1/10。
Sep, 2019
本文探讨如何通过减少多语言模型中的词汇量来生成更小且性能相当的模型,研究结果表明,相比蒸馏的方法,此种方法能在保持性能的情况下,将模型总参数减少达 45% 左右。
Oct, 2020
本篇研究提出了在两种不同类型的 ranker 模型上扩展句子转换蒸馏过程的两种方法,包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明,采用这些扩展技术的学生模型具有极大的压缩程度,而且在测试数据集上表现出高度的有效性和能用性。
Jun, 2022
本文提出了一种多教师知识蒸馏框架 MT-BERT,可以从多个教师 PLMs 中训练高质量的学生模型,并在三个基准数据集上验证了其压缩 PLMs 的有效性。
Jun, 2021
通过知识蒸馏的预训练阶段,可以将 BERT 模型的大小缩小 40%,同时保持 97%的语言理解能力并且速度提升 60%,这种方法被称为 DistilBERT,并可为边缘设备上的计算提供良好的性能
Oct, 2019
本文介绍通过知识蒸馏和 Masked Language Modelling (MLM) 目标函数得到的六个轻量化模型 (BioDistilBERT、BioTinyBERT、BioMobileBERT、DistilBioBERT、TinyBioBERT 和 CompactBioBERT),并在三个生物医学任务中进行评估。实验表明,这些模型与体积更大的 BioBERT-v1.1 性能相当,其速度更快而且更易于使用。
Sep, 2022
本篇论文提出了一种混合模型压缩方法 LadaBERT,结合权重剪枝、矩阵分解和知识蒸馏等技术,可以在保持较高准确性的同时将训练开销减少一个数量级。LadaBERT 是一种适用于在线服务的轻量级 BERT 模型,可以更好地满足用户请求的低延迟需求。
Apr, 2020
本文提出了一种名为 NewsBERT 的基于预训练语言模型的知识蒸馏方法,该方法利用知识蒸馏技术将大型 PLM 压缩为更小的模型,以提高新闻智能应用的性能,并且在两个真实世界的数据集上进行了广泛的实验。
Feb, 2021
将最先进的 Transformer 模型转化为轻量级的 Student 模型是减少推理时间中计算成本的一种有效方法。本文进一步将 Teacher 模型提炼出更大、稀疏的 Student 模型,并在单句文本分类任务中表明,这些 Student 模型平均保留了 97%的 RoBERTa-Large Teacher 性能,同时在 GPU 和 CPU 上推理时间获得高达 600 倍的加速,同时对于句子对分类任务和域泛化设置也具有帮助。
Oct, 2021