Sep, 2019

Transformer 转 CNN:用于文本分类的标签稀缺蒸馏方法

TL;DR这篇论文介绍了一种用蒸馏过程从大型模型中训练出的卷积学生架构,它可以实现 300 倍的推理加速和 39 倍的参数减少,有时学生模型的性能甚至超过了它的老师模型。