Jun, 2021
适应并蒸馏:为特定领域开发小型、快速且高效的预训练语言模型
Adapt-and-Distill: Developing Small, Fast and Effective Pretrained
Language Models for Domains
TL;DR本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法,该方法通过对通用预训练模型进行调整,以及在目标领域进行任务无关的知识蒸馏来实现。具体而言,在适应阶段,我们提出了领域特定词汇扩展,并使用语料库级别出现概率自动选择增量词汇表的大小。然后,我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明,我们的方法在生物医学和计算机科学领域的特定任务中表现优于BERT BASE模型,同时比BERT BASE小3.3倍,快5.1倍。