Jan, 2022

哪个学生最好?针对任务特定 BERT 模型的综合知识蒸馏考试

TL;DR本文研究使用知识蒸馏从 BERT 模型到各种学生模型(BiLSTM、CNN、BERT-Tiny、BERT-Mini 和 BERT-Small)对印尼语文本分类和序列标记进行实验研究,提出了效率高的知识蒸馏训练机制,并发现使用 BiLSTM 和 CNN 学生模型可以在性能和计算资源方面提供最好的平衡。