从 BERT 中提炼出特定任务的知识并转化为简单的神经网络
该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题,探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明,使用软蒸馏和利用教师模型的中间表示,学生模型的性能可以进一步提高,而在低资源环境下,学生模型在保证与教师模型性能基本持平的情况下,可实现最多 26 倍的压缩比,针对多语言环境的扩展实验结果更是惊人。
Oct, 2019
我们改进了最近提出的脉冲变压器(即 Spikformer)以使其能够处理语言任务,并提出了一种两阶段知识蒸馏方法来训练它,该方法结合了通过从 BERT 对大量无标签文本进行知识蒸馏的预训练和通过再次从 BERT 在相同训练样本上进行知识蒸馏的微调来进行训练。通过广泛的实验证明,我们采用这种方法训练的模型,即 SpikeBERT,在英文和中文的文本分类任务上优于最先进的 SNNs,甚至能够达到与 BERTs 相当的结果,并且能够显著降低能量消耗。
Aug, 2023
使用知识蒸馏和教师退火的方法,可帮助多任务神经网络训练并超越单任务神经网络,文中使用该方法在 GLUE 基准测试上成功的提升了 BERT 的多任务微调性能。
Jul, 2019
本文提出了一种名为 NewsBERT 的基于预训练语言模型的知识蒸馏方法,该方法利用知识蒸馏技术将大型 PLM 压缩为更小的模型,以提高新闻智能应用的性能,并且在两个真实世界的数据集上进行了广泛的实验。
Feb, 2021
通过知识蒸馏的预训练阶段,可以将 BERT 模型的大小缩小 40%,同时保持 97%的语言理解能力并且速度提升 60%,这种方法被称为 DistilBERT,并可为边缘设备上的计算提供良好的性能
Oct, 2019
本文研究使用知识蒸馏从 BERT 模型到各种学生模型(BiLSTM、CNN、BERT-Tiny、BERT-Mini 和 BERT-Small)对印尼语文本分类和序列标记进行实验研究,提出了效率高的知识蒸馏训练机制,并发现使用 BiLSTM 和 CNN 学生模型可以在性能和计算资源方面提供最好的平衡。
Jan, 2022
通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架,可以有效地将大型 BERT 中的知识转移到小型 TinyBERT,从而在维持准确性的同时加速推理和减少模型大小,TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能,模型大小约为 BERT 的 1/8,推理速度约为 BERT 的 1/10。
Sep, 2019
该研究使用二进制新闻分类和产品评论情感分析两个任务,评估了两个最先进的深度上下文语言表示,ELMo 和 DistilBERT 的健壮性,旨在探索自然语言处理系统在通向适用于实际场景的系统的过程中的代表性能力的极限。结果显示,DistilBERT 在泛化到跨上下文设置时明显优于 ELMo。
Mar, 2023
介绍了一种新的语言表示模型 BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
Oct, 2018
提出了一种新颖的解释方法,利用人脑阅读复杂自然文本时的脑成像记录来解释最新的四个 NLP 模型 ——ELMo、USE、BERT 和 Transformer-XL 中的词和序列嵌入,研究它们在层深度、上下文长度和注意类型之间的差异,并推测改变 BERT 以更好地对齐脑成像记录将使其更好地理解语言。
May, 2019