BriefGPT.xyz
Ask
alpha
关键词
convolutional student architecture
搜索结果 - 1
Transformer 转 CNN:用于文本分类的标签稀缺蒸馏方法
这篇论文介绍了一种用蒸馏过程从大型模型中训练出的卷积学生架构,它可以实现 300 倍的推理加速和 39 倍的参数减少,有时学生模型的性能甚至超过了它的老师模型。
PDF
5 years ago
Prev
Next