通过新的Transformer蒸馏方法和两阶段TinyBERT学习框架,可以有效地将大型BERT中的知识转移到小型TinyBERT,从而在维持准确性的同时加速推理和减少模型大小,TinyBERT在短语匹配任务的GLUE数据集上取得了96.8%以上的性能,模型大小约为BERT的1/8,推理速度约为BERT的1/10。
Sep, 2019
通过知识蒸馏的预训练阶段,可以将BERT模型的大小缩小40%,同时保持97%的语言理解能力并且速度提升60%,这种方法被称为DistilBERT,并可为边缘设备上的计算提供良好的性能
Oct, 2019
本文研究了文本表示学习器在句法表现上的优越性和在自然语言句法中的应用,提出了将句法模型的预测注入BERT的知识蒸馏策略,并表明在一系列结构预测任务中,这种方法能够显著地减少相对误差。
May, 2020
该论文提出一种基于交叉领域数据增强的BERT知识蒸馏方法,借助资源丰富的源域来自动优化增强策略和提高学生模型性能,实验证明该方法优于现有方法,且在数据稀缺领域中,即使只有少量标记样本,压缩后的学生模型性能也能优于原始的大型教师模型。
Jan, 2021
本文提出了一种高效的知识蒸馏方法,能够压缩BERT模型而无需加载教师模型,并能够实现训练加速2.7x ~ 3.4x。通过将BERT的隐藏知识分为深度、长度和宽度三个维度,该方法能够提取和蒸馏关键的隐藏状态知识,从而实现与大量蒸馏相同的性能提升。
Jun, 2021
本论文提出了一种新的多层次多语种知识蒸馏方法(MMKD),采用英语BERT中的丰富语义表征知识和师生框架来鼓励源-目标对之间的多个层次一致性和教师和学生模型之间的相关相似性,以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明,相对其他基线模型,MMKD在XNLI和XQuAD上表现更好,在PAWS-X上表现相当,并且在低资源语言上获得了显著的性能提升。
Nov, 2022
本文介绍了一种名为一致性正则化的中间层知识蒸馏方法,有效解决了其他中间层知识蒸馏方法容易过拟合的问题,并在模型蒸馏方面表现高效。
Feb, 2023
本研究使用了Transformer-based模型(如BERT、GPT和T5),并进行了知识蒸馏来进行模型压缩,特别关注TinyBERT学生模型。通过实验不同的损失函数、Transformer层映射方法和注意力和表示损失的权重调整,评估了提出的方法在GLUE基准测试的若干下游任务上的效果,旨在提高知识蒸馏技术的效率和准确性,为各种自然语言处理任务的开发提供更高效和准确的模型。
Aug, 2023
使用SimCSE论文中的适用对比学习方法,将基于知识蒸馏模型DistilBERT的模型架构进行调整,以解决自然语言处理模型在语义文本相似度上效果不佳且过大无法部署为轻量级边缘应用的问题,最终得到的轻量级模型DistilFace在STS任务的Spearmans相关性上达到了72.1,相比BERT Base提升了34.2%。
Jan, 2024
我们提出了一种新颖的知识蒸馏方法MLKD-BERT,在教师-学生框架中蒸馏多层级知识。对GLUE基准和提取型问答任务的大量实验表明,我们的方法在BERT上胜过了最先进的知识蒸馏方法。此外,MLKD-BERT可以灵活设置学生注意力头数,能够显著减少推理时间并且性能损失很小。
Jul, 2024